Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Google skokově vylepšil překlad. Umělá inteligence se zakousla do češtiny

Exkluzivně   22:19aktualizováno  20. dubna 11:04
Nová generace strojového překladu je nově dostupná i pro češtinu. Překladač Google nyní využívá tzv. hlubokého učení neuronových sítí k překladu celých vět. Umělá inteligence se také dokáže učit více jazyků zároveň, a zlepšuje se tak často nečekanými způsoby. Zeptali jsme se, v čem spočívají.

Ať už chcete přeložit pár slov, vět nebo třeba celou webovou stránku, Překladač Google (Google Translate) je zdarma k službám více než miliardě lidí na celém světě. Od svého spuštění v roce 2006 postupně začal nabízet překlady mezi 103 světovými jazyky, včetně latiny a esperanta.

Google bude pro překlad do a z češtiny nově využívat neuronové sítě, které překládají text po celých větách, nikoli jen po slovech a frázích

U češtiny, slovenštiny a dalších více než dvaceti jazyků nyní Google spouští novinku - strojový překlad s využitím umělé inteligence. „Jde o největší skokové vylepšení v historii našeho překladače,“ popsal nám v exkluzivním rozhovoru Barak Turovsky, produktový manažer Google Translate. U jazyků, kde už Google novou generaci strojového překládání spustil, podle něj uživatelé zaznamenali tak významné zlepšení překladů, jako za celých předchozích deset let dohromady.

Barak Turovsky, Google

Barak Turovsky, Google

Google neprogramuje speciální algoritmy pro překlad z jednoho jazyka do druhého, protože to by při 103 nabízených jazycích ani nebylo možné. Místo toho naprogramoval neuronové sítě, které se umí učit napříč jazyky. „Není jednoduché vysvětlit, jak překlad pomocí neuronových sítí pracuje,“ říká Barak Turovsky, který vede skupinu pro vývoj Google Translate. Neuronové sítě analyzují miliony různých textů na webu a na nich se trénují, aby se neustále zlepšovaly.

Google Translate nyní překládá po celých větách i z češtiny a do češtiny
Google Translate nyní překládá po celých větách i z češtiny a do češtiny

Google Translate nyní překládá po celých větách i z češtiny a do češtiny.

Různé jazyky mají své zvláštnosti, které by bylo nesmírně obtížné programovat jednotlivě. Právě v tom spočívá síla neuronových sítí - berou v „úvahu“ miliony a miliardy příkladů a dokáží se na základě zpětné vazby neustále učit a zdokonalovat, aniž by bylo nutné (nebo možné) přesně popsat, čemu se v daný okamžik právě naučily.

„Překladač Google nyní používá neuronové sítě i pro český jazyk. Zdá se, že...

Překlad z angličtiny do češtiny si nyní lépe poradí třeba s českým slovosledem. Anglické „seem to have“ proměnil na českou větu vedlejší „Zdá se, že“, kterou dal na začátek výsledného souvětí.

„Výpočet je neuvěřitelně náročný, museli jsme pro tyto potřeby vyvinout vlastní výpočetní jednotky,“ připomíná Turovsky. „Říkáme jim Tensor processing units, tedy TPU.“ Podobají se grafickým kartám, ale jsou navrženy přímo ke strojovému učení, a výrazně tak snižují spotřebu energie, což je při masivním nasazení velmi důležité.

První dojmyPřeklady do češtiny jsou lepší, než jsme čekali

Google novinku spustil o půlnoci z 18. na 19. dubna, uživatelům by se měla tato možnost objevovat postupně. Nám se nové překlady aktivovaly po osmé hodině večerní. Rozdíl je patrný na první pohled.

Posuďte sami kvalitu překladu do češtiny na tomto příkladu, který jsme z angličtiny nechali přeložit do češtiny v úterý (před změnou) a ve středu, po aktivaci nového enginu Google Translate:

OriginálStarý Google Translate Nový Google Translate
We would like to try what is possible in the world of on-line translators and artificial intelligence. The new version of Google Translate utilizes deep neural networks to translate the whole sentences, not just short phrases. The neural networks analyze millions of different texts and then train themselves to perform better and better. Rádi bychom se snažit, co je možné ve světě on-line překladatelů a umělé inteligence. Nová verze Google Translate využívá hluboké neuronových sítí překládat celé věty, ne jen krátké fráze. Neuronových sítí analyzovat milióny různých textů a pak trénovat sami provádět lépe a lépe.
(8 chyb)
Chtěli bychom zkusit to, co je možné ve světě on-line překladatelů a umělé inteligence. Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě analyzují miliony různých textů a pak se vycvičí, aby mohli lépe a lépe.
(2 až 3 chyby)

Je vidět, že úskalí české gramatiky nejsou zcela překonána (shoda podmětu s přísudkem v poslední větě), ale zlepšení je patrné. Zvláště časování sloves a skloňování přídavných jmen je v nové verzi mnohem pružnější, a také volba ze synonym se nám zdá býti lepší, než ve verzi původní. A jak to vypadá při překladu z češtiny do angličtiny?

OriginálStarý Google Translate Nový Google Translate
Poplatníci jsou daňovými rezidenty České republiky, pokud mají na území České republiky bydliště nebo se zde obvykle zdržují. Daňoví rezidenti České republiky mají daňovou povinnost, která se vztahuje jak na příjmy plynoucí ze zdrojů na území České republiky, tak i na příjmy plynoucí ze zdrojů v zahraničí.Taxpayers are tax residents of the Czech Republic, if you have a residence in the Czech Republic or usually reside. Tax residents of the Czech Republic have a tax duty that covers both the income derived from sources in the Czech Republic and on income from sources abroad.
(čtyři drobné chybky)
Taxpayers are tax residents of the Czech Republic, if they are resident or usually reside in the Czech Republic. Taxpayers of the Czech Republic have a tax liability, which applies both to income flowing from sources in the Czech Republic and to income from sources abroad.
(jedna drobná chybka)

Připravili jsme si stovky vět, na kterých starou a novou verzi porovnáme (aktualizace: podrobný test si přečtěte na Technet.cz).

Při překladu z češtiny do angličtiny je síla neuronových sítí velmi patrná, protože v angličtině mají neuronové sítě k dispozici obrovské množství podkladů - mnohem větší, než v ostatních jazycích - a dokáží tak produkovat velmi přirozeně plynoucí anglický text. Při pohledu na výsledný text by vás na první pohled určitě nenapadlo, že jej psal stroj.

Překlad celých vět a frází v novém Google Translate

Překlad celých vět a frází v novém Google Translate

Výsledný text je téměř bez chyby, a dokonce celkem věrně kopíruje styl a žánr původního textu. Přesnost překladu je místy až zarážející, zvláště vezmeme-li v úvahu odlišný slovosled v obou jazycích.

Abychom lépe pochopili, v čem spočívá tato těžko uchopitelná inovace „třetí generace“, vzal nás Turovsky na krátký výlet do historie počítačových překladů.

První generacePočátky strojového překladu za studené války

Překládání textů z cizího jazyka má svůj historický původ ve zpravodajských rozvědkách. Američané potřebovali vědět, co znamenají zprávy, které odposlechli či zachytili, a hledali jednoduchý způsob, jak jejich překlad automatizovat. K tomu používali systém založený na jasně daných gramatických pravidlech, jakýchsi vzorců, do kterých pak počítač mechanicky doplňoval slova podle dostupného slovníku .

„Pravidlový systém (v originále rule-based system) přinesl první generaci strojových překladů,“ říká Turovsky. „Lingvisté sestavili jasná pravidla a ta byla rigidně aplikována na strojově překládané texty.“ Takový počítačový překladač mohl podle něj fungovat pro nějaké konkrétní věci - třeba překlad vojenského hlášení o počtu tanků. Do strojového překladu se začaly investovat nemalé peníze a vznikly i instituce, které se výzkumem strojového překladu zabývaly (viz např. zpráva ALPAC z roku 1966, PDF).

„Systém založený na rigidních pravidlech nebylo možné využít pro univerzální překlad textů.“

„Netrvalo ale dlouho - sotva třicet let - a bylo jasné, že tento přístup nelze škálovat napříč jazyky ani na bohaté slovníky. Pokud vás zajímá počet letadel a tanků, možná to stačí, ale když chcete překládat literaturu, mezilidskou komunikaci, obchodní korespondenci, tak to prostě nefunguje,“ dodává Turovsky.

Překlad textů se ukázal jak náročnější problém, než se původně zdálo. Různé jazyky totiž mají nejen různá gramatická pravidla, ale také různá synonyma, různé idiomy a spousta slov mění svůj význam v závislosti na kontextu, což systém překladu založený na striktních pravidlech zkrátka neumí postihnout.

Druhá generaceStatistický model dokázal víc, než se čekalo

V 80. letech se lingvisté a počítačoví vědci pokusili s těmito problémy vypořádat prostřednictvím hrubé počítačové síly, ovšem poněkud chytřeji aplikované. Nutno dodat, že jak narůstal výpočetní výkon, dostaly se ke slovu metody, které by na počítačích z 60. let byly nemyslitelné. Jednou z nich byl statistický strojový překlad.

Představme si, že máme k dispozici text v cizím, nám neznámém jazyce. Zároveň máme ale stejný text i v jazyce, který ovládáme. Nyní se tedy můžeme pokusit rozkouskovat oba dokumenty a sestavit jakýsi slovník. Co kdybychom takových dokumentů ve více jazycích měli více? U některých slov zjistíme, že mají více překladů, jinde objevíme ustálené fráze a spojení. Čím více dvojjazyčných textů máme k dispozici, tím vyšší jistotu při svých překladech získáváme.

Překladač AltaVista Babel Fish

Překladač AltaVista Babel Fish

Tak zjednodušeně funguje statistický strojový překlad, jehož průkopníkem se stal SYSTRAN od Xeroxu (1978), který se v roce 1996 stal i prvním strojovým překladačem dostupným na webu. O rok později se překladač Systran usídlil na AltaVista Babelfish, pojmenovaném podle fiktivní rybičky z kultovního Stopařova průvodce galaxií. Na své adrese babelfish.altavista.com zůstal i dávno po konci vyhledávače AltaVista.

Také Google Translate vycházel ze statistických modelů, navržených německým programátorem Franzem Josefem Ochem, který vedl tým Překladače od jeho založení v roce 2006 až do roku 2013.

Frekvenční výskyt slovních spojení (ngram) v průběhu historie

Jedním ze zdrojů dat jsou i knihy, které Google skenuje v rámci projektu Google Books. To umožňuje Googlu sledovat i vývoj jazyka.

Pro statistické překlady byl web doslova požehnáním. Na internetu Google našel nepřeberné množství textů, které musely být profesionálně přeloženy do dvou či více jazyků: směrnice, příručky, zákony, populárně naučné knihy, encyklopedie, Bible, dokumenty OSN atd. Právě jejich strojovou analýzou Google postupně vycvičil svůj statistický model. A ze stejných dat těží i jeho třetí generace strojového překladače...

Třetí generaceNeuronové sítě jako „černá skříňka“

V září 2016 vývojáři Google oznámili, že představí zcela nový systém překladu, založený na neurálním strojovém učení (Google Neural Machine Translation). Šlo o výrazný krok z překládání na základě frází k překládání na základě celých vět. Své výsledky vývojáři tehdy rovněž publikovali na arXiv.org (PDF). Oproti překládání na základě frází tehdy hlásili zlepšení o 60 % na ukázkových překladech z angličtiny do francouzštiny a angličtiny do němčiny.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech....

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Principy překladu Google Translate pomocí neuronových sítí

Principy překladu Google Translate pomocí neuronových sítí

„Překlady neuronovými sítěmi znamenají ohromný skok v kvalitě. Jednorázově jsme překlady zlepšili víc, než předtím za celých deset let existence,“ domnívá se Turovsky. „Neuronové sítě překládají celé věty naráz, zatímco předtím jsme překládali jen kousky věty. Je to proces nesmírně náročný na výpočetní výkon. Používáme na to vlastní hardware zvaný Tensor processing units.“ Tyto specializované jednotky se podobají grafickým kartám, ale jsou od začátku přizpůsobené přímo pro strojové učení, což výrazně snižuje jejich spotřebu elektřiny a zvyšuje tak výkon, měřený v počtu operací na jeden watt.

Jak se neuronové sítě učí jazyk?

Jedním ze způsobů, kterým se neuronové sítě “samy” učí, je určování míry podobnosti jednotlivých slov a frází. Díky tomu neuronový překlad lépe pracuje s mnohoznačnými i řídce užívanými slovy. Dokáže totiž odhadnout jejich použití podle známých slov stejného druhu.

Například slovo “tuřín” se v běžné mluvě příliš nevyskytuje, ale neuronový systém na základě dat odhadne, že s ním ve větě může pracovat podobně jako se slovy “mrkev” nebo “brambora”. K podobným závěrům je schopen dojít i na základě vstupů z různých jazyků, které se učí současně. Když budeme mít více ukázkových vět o bramborách v holandštině než v islandštině, odhadne systém na základě znalostí z holandštiny, jak mluvit o bramborách islandsky.

(z tiskové zprávy Google)

Také neuronové sítě využívají k překladům ohromné množství dat v podobě knih, webových stránek, přeložených zákonů atd. Narozdíl od statistických modelů ale umí lépe pracovat se zpětnou vazbou a s kontextem. Neuronové sítě se neučí jazyky jako takové, ale spíše se učí, jak překládat zadané texty, tak aby co nejvíce odpovídaly tréninkovým datům.

Tyto sítě dokonce umí použít, co se naučily na jiných jazycích, k překladu jazyka, ke kterému není k dispozici dostatek tréninkových dat. „Seskupujeme jazyky dohromady, třeba několik slovanských jazyků se vylepší na základě stejných dat,“ dává příklad Turovsky. „Jindy je to celkem nečekané. Třeba překlad z polštiny se zlepšil, když jsme využili data získaná trénováním umělé inteligence na textech ve vietnamštině nebo thajštině. Je to tak trochu černá skříňka,“ dodává.

Protože neuronové sítě se učí z dostupných dat, stejně jako jejich statistický předchůdce, má Google na tomto poli velkou výhodu. „V množství dat nemůže Googlu nikdo konkurovat, snad jen Facebook,“ uvažuje programátor Martin Schmid. „Data jsou v tomto případě kritická. Neuronové sítě v tomto případě velmi dobře škálují. Je snadné dostat lepší výsledky, pokud máte víc dat.“

Podle Turovského mají neuronové sítě ohromné možnosti. Připomínají děti, které se učí nový jazyk. Sám Turovsky má malé děti, které mluví plynně anglicky i rusky: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

Podívejte se na náš test mobilní aplikace Google Translate z roku 2015:

Aktualizace: Článek jsme rozšířili o ukázky, příklady, historii a popis teorie. Přidali jsme video a doplnili podrobnosti o neuronových sítích. Doplnili jsme další vyjádření a opravili chybný popisek v tabulce. Doplnili jsme příklady.

Autor:




Hlavní zprávy




LAMAX Beat Street ST-1LAMAX Beat Street ST-1

Porovnejte ceny, pročtěte recenze a objednejte přímo u nás.

www.Heureka.cz

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.