Počítač už ví ...

Počítač už ví ... | foto: Profimedia.cz

Děti budou umět dřív diktovat než psát, tvrdí expert z Googlu

  • 73
Rozpoznávání řeči umožní, že počítač porozumí tomu, co po něm chcete. I když třeba neumíte psát. O počítačové analýze lidské řeči jsme mluvili s Mikem Cohenem, vedoucím expertem společnosti Google na rozpoznávání řeči.

"První hlasové ovládání, které znám, je z roku 1922," chlubí se Mike Cohen hračkou, kterou ulovil na internetové aukci. Výhradně rozpoznáváním řeči se zabývá už šestadvacet let. Než jej získal Google, pracoval pro univerzity, armádu i vlastní firmu.

Na vlastní oči tak sledoval, jak se rozpoznávání řeči měnilo z laboratorního triku až po běžnou součást ovládání mobilního telefonu: "Před deseti lety by to bylo neuvěřitelné. A pořád je to úžasné, stačí se zeptat na cokoli a odpověď máte na displeji." Jako další technologie, jako vystřižené ze sci-fi filmu, uvádí třeba automatický simultánní překlad mluveného slova nebo počítačem vytvářené titulky do videa.

Cílem je podle něj všudypřítomnost hlasového ovládání: "Jakékoli zařízení bude v budoucnu umět reagovat na váš hlas. Nebudete přemýšlet, zda nějaký přístroj poslouchá nebo neposlouchá. Všechny budou poslouchat." Klávesnice podle něj ale i nadále bude mít své místo, ne vždy je totiž praktické si s počítačem nahlas povídat: "Nejsme posedlí rozpoznáváním řeči," zdůrazňuje Cohen. "Jsme posedlí zlepšením komunikace mezi uživatelem a počítačem, uživatelem a jeho okolím."

Mike Cohen, šéf "veškerých úsilí spojených s rozpoznáváním řeči" společnosti Google

Nadšené začátky rozpoznávání řeči

Můžete nám stručně popsat svou kariéru v oblasti rozpoznávání mluveného slova?

Už více než dvacet šest let se zabývám prakticky výhradně technologiemi kolem rozpoznávání řeči, mám toho za sebou opravdu hodně, řekl bych (smích). Prvních deset let jsem strávil u SRI, kde jsme se zabývali základním výzkumem této problematiky. Vytvářeli jsme akustické modely, artikulační modely a podobné věci. A pak, v roce 1994, jsem začal pracovat pro Nuance Communication, kterou jsem spoluzakládal a kde jsem strávil dalších deset let. Nuance se zabývala především automatizovanými telefonními systémy. A v roce 2004 jsem nastoupil u Google, kde dohlížím na rozvoj technologií spojených s rozpoznáváním řeči.

Za těch 26 let se toho muselo hodně změnit. Začínal jste v roce 1984, jaký byl tehdejší stav technologie rozpoznávání řeči?

Mnoho tehdejších systémů využívalo Dynamic Time Warping. Znamená to, že jste do systémů vložili šablonu slova, a nechali jste algoritmus, aby si to přebral a později dokázal tento zvuk rozpoznat od jiných zvuků, pronášených třeba jiným tempem. Už tehdy se ale objevovaly sofistikovanější systémy, založené na více statistických přístupech (a také skrytý Markovův model), ale ve srovnání s dneškem byly celkem primitivní. Pracovali jsme na rozvoji statistických modelů, které jsme trénovali na velkých vzorcích dat. A samozřejmě jsme nadále rozvíjeli výslovnostní modely.

Byla to opravdu zlatá éra výzkumu rozpoznávání řeči. Konečně jsme se totiž dostávali do bodu, kdy jsme měli dostatek dat na to, abychom mohli něco opravdového dokázat. A také už jsme měli k dispozici nějaké vhodné lingvistické modely, což rozpoznávání velmi usnadňuje. Prvních osm let se dělaly velké skoky kupředu skoro každý den.

Co už tehdy počítače pochytily?

První systém, na kterém jsem pracoval, potřeboval, abyste na něj mluvili pomalu, a abyste od sebe slova oddělovali nepřirozenou pauzou. V dalších letech se povedlo rozvinout rozpoznávání přirozené řeči, rozpoznávání nezávislé na mluvčím a konečně i adaptivní rozpoznávání. Je za tím obrovské množství práce.

Na začátku devadesátých let jsme pracovali na projektu ATIS, který sponzorovala americká vláda, výsledkem měl být počítač, který dokáže na přirozenou řečí položenou otázku o odletech a příletech letadel dávat použitelné, relevantní odpovědi. Bylo to tehdy nesmírně ambiciózní, přesahoval to, co tehdy bylo vůbec možné.

"Najdi mi lety z Chicaga do San Francisca příští úterý, které odlétají mezi desátou a druhou."

V průběhu pěti let se nám podařilo neuvěřitelné. Bylo to jako ze Star Treku. Kdokoli mohl k počítači přijít a bez nějaké zvláštní pečlivosti říct: "Počítači, najdi mi lety z Chicaga do San Francisca příští úterý, které odlétají mezi desátou a druhou." ATIS měl samozřejmě databázi letišť a přístup k aktuálním datům o všech letech, a působilo to úchvatně. Dokonce jsme tam naprogramovali možnost dodatečných otázek, takže jste mohli navázat "A co takhle později večer?", a nemuseli jste to celé opakovat. Tehdy nám bylo jasné, že rozpoznávání řeči má velkou budoucnost.

Na začátku rozpoznávání řeči to ale tak nadějně nevypadalo...

První pokusy o rozpoznávání řeči se děly už na přelomu čtyřicátých a padesátých let. V roce 1952 postavily Bellovy laboratoře systém, který rozpoznával deset slov, konkrétně číslic. Slova musela být oddělena, a každý uživatel musel být vytrénován (a systém nastaven jemu na míru). V šedesátých letech už bylo možné pracovat s větším slovníkem, slova byla ale stále oddělená.

Až v sedmdesátých letech byl představen statistický přístup k analýze. Jednou z klíčových figur byl Frederick Jelinek (původem z Československa, pozn. red.), který přišel do IBM se zkušenostmi z MIT a Cronellu. Zabýval se statistickou teorií informace, a jeho přístup (třeba i již zmíněný skrytý Markovův model) bezmála zahájil revoluci v rozpoznávání řeči. 

Počátkem osmdesátých letech už byly statistické modely relativně odladěné. Ale řeč musí být analyzovaná do takových podrobností, které byly mimo poznání tehdejší vědy. Takže k datům se přistupovalo tak trochu hrubou silou, bez ohledu na charakteristiky řeči. Teprve úzkou spoluprací s lingvisty jsme se posunuli zase o trochu dopředu. Přesto ale statistická analýza přetrvala až do dnešní doby jako hlavní pohon rozpoznávání řeči, a přirozených vstupů obecně: rozpoznávání rukopisu či automatizovaného překladu.

Využívali jste v rámci výzkumu rozpoznávání řeči i nějak nestandardně?

Radio Rex - hračka z roku 1922

No tak úplně první stroj, o kterém vím, že používal rozpoznávání řeči, byl malý pejsek pro děti, jmenoval se Radio Rex. V roce 1922 jej uvedla společnost Elmwood Button. Dítě zavolalo "Rexi" a pejsek vyskočil z boudičky. Fungoval na principu zvukových vln, které při frekvenci kolem 500 Hz rozechvěly kontakt elektromagnetu, a ten pustil pružinku. To je první pokus o "aktivaci hlasem", který znám. Před 10 lety jsem na eBay našel jeden exemplář a okamžitě jsem jej dětem (a sobě) koupil.

Jaký byl váš cíl, vaše představa o tom, co bude v oblasti rozpoznávání řeči možné?

Musím být opatrný, abych si nepřisoudil větší předvídavost, než mi náleží. (smích) Takhle zpětně si to člověk samozřejmě pamatuje trochu jinak. Ale myslím si, že jsem to vždy vnímal jako dlouhodobý, postupný výzkum, který postupně dotáhne technologii až téměř perfektního rozpoznávání mluvené řeči. Věřil jsem, že budeme moci počítači po telefonu klást otázky a on nám bude odpovídat, to byla moje vize.

Právě zmíněný projekt ATIS mne přesvědčil, že technologie se už rozvinula natolik, že může být použitelná v reálném světě, nejen v laboratoři. Proto jsem spoluzaložil firmu Nuance, kde jsme se zabývali právě praktickým uplatněním rozpoznávání řeči.

Začali jsme telefonními systémy, lidé mohli třeba zadávat bankovní transakce po telefonu. Později jsme vytvořili velmi komplexní systém pro makléře. V té době jste museli zavolat a symbol vašich akcií vyťukat velmi neohrabanou kombinací čísel. My jsme vytrénovali systém tak, aby uměl přijmout tuším že jedenáct tisíc různých příkazů (většina z toho byly jména společností). Byl to podle mého obrovský posun, a odezva byla pozitivní. 

Dnes se podobný systémy používají běžně, třeba američtí operátoři vás podle toho, co počítači řeknete, nasměrují na konkrétní službu nebo oddělení. Stačí obyčejná věta: "Nevím, jak nastavit internet na telefonu."

Nadiktujte, co chcete

Z uživatelského pohledu je asi nejzajímavějším uplatněním převod řeči na text. Jak se odlišuje od rozpoznávání omezeného počtu předem nahraných vzorků?

I rozpoznávání vzorků je přístup k převodu řeči na text, ale poněkud zastaralý a málo flexibilní. Nedokáže reagovat na neznámá slova, je obvykle trénovaný na konkrétního mluvčího, a hodí se spíše k ovládání systémů, kde stačí rozpoznávat několik málo příkazů. Jejich množina je uzavřená. Rozhodně se nehodí na diktování.

Největší výhodou, kterou přináší statistické modelování, je možnost konstruovat obecné algoritmy, které můžete trénovat na konkrétního uživatele, aniž by tento uživatel napřed musel přečíst do počítače desetkrát přečíst celý slovník.

Takže v jakém stavu je rozpoznávání řeči dnes?

Jeden z důvodů, proč jsem v roce 2004 přešel ke Googlu, byla obrovská popularita vyhledávání a masivní nástup mobilního internetu. Bylo jasné, že bude potřeba nová generace přístupu k informacím, kde bude řeč hrát významnou roli. Takže důležitou roli dnes hraje rozpoznávání řeči na mobilu, třeba hlasové vyhledávání přes mobil.

Google chce indexovat všechny informace světa, a tak i rozpoznání řeči slouží ke sběru dat. A naopak, tato data nadále zlepšují rozpoznávání řeči.

Další důležitý dopad rozpoznávání řeči souvisí se snahou Googlu indexovat veškeré informace. A mnoho informací je ve formě mluvené řeči. Zvukové stopy videí na YouTube, hlasová schránka… Tam všude by rozpoznávání řeči hodně pomohlo k lepšímu uspořádání informací. Tahle touha dnes pohání velkou část výzkumu.

Hlasové vyhledávání už zvládá v podstatě každý mobil s Androidem. Před deseti lety by to bylo neuvěřitelné. A pořád je to úžasné, stačí se zeptat na cokoli a odpověď máte na displeji.

Dalším krokem je Hlasový vstup. Kdekoli v rámci Androidu můžete místo psaní na klávesnici diktovat, bez ohledu na to, v jaké jste aplikaci. To je samozřejmě méně spolehlivé, ale důležitý je princip. Rozpoznávání řeči je programátorům snadno dostupné. Teď i lidé, kteří nemají doktorát z informatiky, mohou tvořit aplikace pracující s mluveným slovem.

Právě u mobilu dává rozpoznávání řeči smysl. Sednu do auta, řeknu, potřebuji se dostat do té a té ulice, a navigace mne tam dovede, zatímco já můžu třeba diktovat e-mail. To už není sci-fi, to je reálné použití.

Při rozpoznávání uživatelského vstupu je zřejmě problém, že program vůbec netuší, čeho se diktovaný text může týkat, že?

Obecně je to pravda. Diktování je těžká výzva, nelze příliš předvídat, o čem uživatel mluví. V některých případech to lze obejít statistickou nebo lingvistickou analýzou, a také podle kontextu lze něco upřednostnit. Celkově je to ale velmi obtížné.

Všechny tyto systémy jsou postavené na statistických modelech, a my máme k dispozici obrovské množství dat, ve kterých můžeme hledat. Možnost krmit naše algoritmy hromadou dat nám nesporně pomáhá. U Googlu máme několik výhod, jednou z nich je obrovská výpočetní kapacita pro trénování našich modelů, druhou je velké množství indexovaného textu, ze kterého můžeme čerpat data pro analýzu přirozené řeči, pro modelování jazyka.

Hlasové vyhledávání (Voice Search na Androidu) je nesmírně spolehlivé. Proč? Trénujeme ho na mnoha stovkách miliard slov ze skutečných dotazů. Máme tedy dobrý model řeči typické pro vyhledávání. To samé chceme udělat i v obecnějších případech.

Pro Google je tohle uvažování typické, ptáme se, jak využít to velké množství dat k zobecnění, vyladění a předpovídání.

Ne všude se rozpoznávání řeči hodí

Za jakou hranici by se rozpoznávání řeči nemělo pouštět, zvážíme-li technická i praktická omezení? Nebo by žádná omezení neměla brzdit pokrok?

Nejhorší, co můžete udělat, je označit něco jako "nemožné". Neříkám, že všechno je možné, ale dokud to nezkusíte… Podle mne nás teď směrují potřeby koncových uživatelů. Teď třeba intenzivně pracujeme na přepisu YouTube videa, už nějakou dobu si ostatně můžete zapnout experimentální titulky u anglických videí, které vytvořil počítač. A tyto titulky pak můžeme automatizovaně překládat do jiných jazyků. Představte si, co to znamená. Lidé z celého světa mají přístup k anglickým videím ve svém vlastním jazyce.

Samozřejmě je to velmi, velmi obtížný a komplexní problém. Na některých videích to vychází lépe, na jiných opravdu, opravdu mizerně. Hluk v pozadí, špatně nahraný zvuk, mikrofon mají v druhé místnosti a podobné šílenosti, které vytvářejí špatné podmínky pro rozpoznávání řeči.

Cílem je, aby rozpoznávání řeči bylo uživatelům k dispozici kdykoli a kdekoli. Lidé se pak budou rozhodovat čistě na základě toho, co se jim právě hodí, ne podle toho, co je spolehlivější.

Na tom, jak uživatelé naše služby přijímají, vidíme, že nejdůležitější je kvalita. Vždy, když jsme měřitelně zlepšili úspěšnost, zvýšilo se procento uživatelů, kteří se ke službě vrací. Naším cílem je, aby rozpoznávání řeči bylo uživatelům k dispozici kdykoli a kdekoli. Lidé se pak budou rozhodovat čistě na základě toho, co se jim právě hodí. V autě zvolí nejspíše rozpoznávání řeči, v kanceláři nebo kavárně spíše klávesnici, aby nerušili okolí. Ale nebudou se rozhodovat podle toho, co je spolehlivější, protože naším cílem je, aby spolehlivost byla srovnatelná.

Myslím, že lidé přehnaně touží po hlasovém ovládání, protože jej mají, díky sci-fi filmům, spojené s budoucností a pokrokem. Ve filmech se ale hlasové ovládání používá hlavně kvůli divákům, je to pro scénáristu nejjednodušší způsob, jak dát jasně najevo, co se právě děje. V praxi je, podle mého, ve většině případů nepraktické s počítačem rozmlouvat. Místo dotazu "Jak daleko je ta planeta, počítači?" stačí jediné kliknutí na obrazovku.

To je dobrý postřeh. Zejména pro filmaře je hlasové ovládání nejjednodušší cesta, i když by to v danou chvíli nedávalo smysl. Ale Vaše připomínka obecně ukazuje důležitost, kterou hraje uživatelská přívětivost. Nestačí se jen dívat na to, co lidé dělají dnes. Musíme neustále testovat, co je užitečné, s čím lidé chtějí pracovat, jak chtějí komunikovat.

My nejsme posedlí rozpoznáváním řeči. Jsme posedlí zlepšením komunikace uživatelem a počítačem, uživatelem a jeho okolím. Nebudeme jej nutit používat rozpoznávání řeči tam, kde to nedává smysl. 

Všechny přístroje nás budou poslouchat

Kde si myslíte, že bude hlasové ovládání dominantní a přirozené, a kde se neuchytí?

I kdyby bylo hlasové ovládání dokonalé, jsou případy, kdy jej nemůžete použít. Ať už jste tajný agent, nebo jen nechcete rušit kolegy ve stejné místnosti. Nebudeme hlasové ovládání používat neustále. K ovládání grafických aplikací je řeč vysloveně nevhodná. Různé druhy ovládání musejí navzájem kooperovat a být uživateli k dispozici.

A nebojíte se, že třeba lidé zpohodlní, zapomenou, jak psát perem na klávesnici? Děti se jistě naučí napřed diktovat, pak teprve psát na klávesnici…

Ano, děti se jistě napřed naučí diktovat, ale nemyslím si, že by psaní vymizelo. Ale je pravda, že kultura se mění. Kdo ví.

Jaké jsou vyhlídky do příští dekády?

Jak už jsem řekl, všudypřítomnost hlasového ovládání je velkým cílem. Další důležitá aplikace je simultánní automatizovaný překlad. Už na tom pracujeme, ale není to jednoduché, všechny tři složky (rozpoznání řeči, překlad, syntéza) jsou nesmírně komplikované. V důsledku jde ale o technologii s ohromnými důsledky pro společnost, boří bariéry mezi lidmi.

Jakékoli zařízení bude v budoucnu umět reagovat na váš hlas. Nebudete přemýšlet, zda nějaký přístroj poslouchá, nebo neposlouchá. Všechny budou poslouchat.

Jakou roli hraje v hlasovém ovládání porozumění nikoli jen slovům, ale smyslu těchto slov?

Je velice důležité skloubit tyto dvě oblasti, tedy porozumění řeči a pochopení smyslu. Počítač musí pochopit, jak reagovat. Už ATIS se o řešení tohoto problému částečně pokoušel, musel rozpoznat sémantiku daného dotazu. Voice Actions na telefonu také analyzují sémantiku. Ale zatím jsou to velmi specifické aplikace, nic obecného. Je to důležitá oblast dalšího průzkumu.

A poslední otázka: jak se jazyky z pohledu rozpoznávání řeči vzájemně odlišují? Co můžete řešit pro angličtinu, češtinu i čínštinu společně, a co musíte řešit pro každý jazyk zvlášť?

Většinu základů můžeme řešit dohromady. Základ tvoří analýza dat, a ta probíhá prakticky stejně, také akustický model je velmi podobný, maximálně je potřeba přidat nějaké hlásky. Jen musíme nasbírat hodně kvalitních dat.

V nadstavbě už se ale setkáváme s velkými rozdíly. Některé jazyky, třeba mandarínština, pracují s melodií věty, a to je potřeba vložit do systému. Němčina zase skládá slova dohromady, to je taky specifikum, které musíme ošetřit. Celkově jsou ale naše přístupy velmi obecné.

Děkuji za rozhovor. Přepíšu jej do češtiny, ale pošlu vám odkaz, ať vyzkoušíte strojový překlad.

Přesně to jsem měl v plánu! (smích)