iDNES.cz

Premium

Získejte všechny články
jen za 89 Kč/měsíc

„Málem jsem zabil bratra!“ Nový překladač je lepší, chyby jsou vtipnější

10. května 2017, aktualizováno 6:51

Jak si neuronové sítě Překladače Google poradí s češtinou? Otestovali jsme překladač na 135 větách a srovnali novou verzi se starou. Na první pohled je patrné nejen výrazné zlepšení, ale i zásadní změna způsobu, jak systém využívá neuronové sítě k překladu celých vět. Ve specifických situacích se ovšem ještě má co učit.

Překlad pomocí neuronových sítí (ilustrační snímek) | foto: montáž: Pavel Kasík - Technet.cz, Profimedia.cz

35 fotografií

„Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě mohou dokonce využít to, co se naučily v jiných jazycích, aby zlepšily překlad z jazyka nebo do jazyka, kde není dostatek údajů o školení.“ Tak Překladač Google přeložil z angličtiny do češtiny popis svých nových funkcí (více v našem článku). Až na drobné chybky je to překvapivě čitelný český text bez gramatických chyb.

„Díky zapojení strojového učení neuronových sítí naše překlady přes noc udělaly takový pokrok, jako předtím za deset let od spuštění služby,“ řekl nám Barak Turovsky, produktový manažer Google Translate, u příležitosti spuštění této novinky pro český jazyk v polovině dubna.

Na první pohled bylo výrazné zlepšení patrné především u delších vět a souvětí. Zároveň jsme ale našli řadu příkladů, kde se překlad citelně zhoršil, třeba u ustálených slovních spojení a idiomů. K pořádnému otestování jsme proto (ještě před spuštěním neuronových překladů) nasbírali 135 vět nejrůznějších žánrů a stylů a porovnali staré překlady s novými.

Porovnejte staré překlady s novými v naší galerii

Zobrazit galerii vybraných ukázek staré a nové verze překladu před a po zavedení systému pro překlad celých vět pomocí strojového učení.

Sběr dat probíhal v březnu až dubnu 2017, přičemž nové překlady jsme sbírali nejpozději tři dny po aktivování funkce neuronových sítí. Všechny použité texty si můžete stáhnout v PDF. Následně jsme každou větu zanesli do databáze a porovnali oba překlady ve slepém testu (hodnotitel nevěděl, který překlad pochází z které verze překladače). Takže jak zní verdikt?

První dojem Překladač se skutečně znatelně zlepšil

Přehled hodnocení překladů

Každou větu jsme ohodnotili na škále od jedničky do pěti, kde skóre 5 byl dokonalý bezchybný překlad, zatímco nejnižší skóre signalizuje mizerný překlad se zásadními chybami nebo dokonce zásadní změnou významu.

Jako první jsme srovnali malý vzorek textů, ke kterým jsme měli k dispozici historické srovnání díky našemu článku z roku 2008. Devět textů jsme tedy mohli porovnat ve třech verzích a posoudit tedy alespoň zhruba, zda je zlepšení překladače skutečně tak skokové, jak Google sliboval.

Srovnání překladů 2008, starých 2017 a nových 2017
Originál	2008	2017 před	2017 po
The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn.	Studio byla naplněna bohatou vůni růží, a když se světla letní vítr vzbudil uprostřed stromů na zahradě, tam přišlo přes otevřené dveře těžkých vůni z lila, nebo více delikátní parfém z růžového-květinové trn.	Studio bylo naplněno bohatou vůní růží, a když světlo léto vítr míchá uprostřed stromů v zahradě, přišel otevřenými dveřmi těžká vůně šeříku nebo více delikátní vůně růžového-kvetoucí trn.	Ateliér se naplnil bohatým zápachem růží a když se v zahradě stromy rozvířil lehký letní vítr, prošly otevřenými dveřmi těžká vůně lila nebo jemnější vůně růžového kvetoucího trnu.

Na textu z románu Oscara Wildea je vidět, že pokrok za deset let je značný. A stejně tak je znatelný pokrok nové verze s neuronovými sítěmi oproti verzi bez ní. V kvantitativním hodnocení je vidět, že skok mezi 2008 a 2017 je o něco významnější než pokrok po zavedení neuronových sítí, ovšem mějme na paměti, že jde o celkem malý vzorek devíti krátkých ukázek.

Lze tedy říci, že skok v kvalitě překladů je skutečně znatelný, i když možná ne tak výrazný, jako bylo zlepšení za posledních devět až deset let. Pojďme se podívat podrobněji na větší vzorek přeložených textů; nadále už ovšem budeme porovnávat pouze překlady z dubna 2017, těsně před a těsně po zavedení nového způsobu překládání.

Podívejte se, v čem spočívá vylepšení Překladače Google:

Žánry textu Zprávy a encyklopedie se překládají nejlépe

Nejzajímavější pro nás bylo sledovat, u jakých typů textu zaznamenal překladač největší zlepšení. Srovnávali jsme několik žánrů textů, od neformálních poznámek v diskuzi nebo komentářů na Facebooku až po formální texty encyklopedické či právnické.

Jednoznačně největší pokrok udělal Google Translate u překladu encyklopedických textů. To není překvapivé vzhledem k tomu, že encyklopedické texty jsou obvykle psané jasně, jednoznačně a nepracují s metaforami nebo idiomy. Navíc je zde (například díky Wikipedii) obrovské množství snadno dostupných textů, na kterých se neuronové sítě (a předtím statistické modely) mohou ustavičně trénovat.

Ukázka překladu z češtiny do angličtiny (vlevo) a naopak (vpravo) u textů z Wikipedie

Také zpravodajské texty (kde lze opět očekávat jednoznačné formulace) se v nové verzi výrazně zlepšily. Potíže má ale překladač (starý i nový) s dvojsmysly a zavedenými frázemi v novinových titulcích. Celkově lze ale říci, že Angličan či Američan si s Google Translate může přečíst české zpravodajství a porozumět přinejmenším podstatě článku.

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: oznámení PID)

V jiných žánrech bylo zlepšení méně patrné. V próze se nový překladač snaží zohlednit celou větu, což dává lepší výsledky u delších vět, ale zároveň občas vede k novým - a celkem nečekaným - chybám. Strojový překlad poezie je nadále prakticky spíše nepoužitelný. A u českých přísloví či anglických idiomů jsme naopak zaznamenali překvapivé zhoršení.

Nejvtipnější chyby Otrocky přeložená přísloví a bratrovražda

Jedinou kategorií, ve které se neuronové sítě oproti původnímu stavu jednoznačně zhoršily, jsou „špeky“. Tak jsme si pracovně nazvali různá přísloví, ustálené fráze a idiomy. Zatímco původní verze Překladače Google si s většinou z nich dobře poradila, nová neuronová síť je bohužel překládá otrocky a doslovně.

Ukázka překladů přísloví a idiomů

Předpokládáme ale, že postupem času se nová verze také naučí překládat tyto fráze přeneseně, nikoli doslova. Mohou tomu napomoci i dobrovolníci, kteří pomáhají opravovat a vylepšovat překlady. Ostatně i vy, kdykoli překlad v Překladači Google opravíte, vysíláte zároveň neuronové síti jasný signál: tudy ne, nauč se to jinak! Původní překlady jsou navíc zatím stále ještě dostupné po rozkliknutí alternativ, takže je vidět, že Google své původní těžce nabyté vědomosti zahodit nehodlá.

Mnohem zajímavější bylo sledovat chyby, u kterých není na první pohled jasné, jak vznikly. O tom ostatně mluví i Turovsky, podle kterého neuronové sítě připomínají děti učící se cizí jazyk: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

V rámci našeho testu jsme narazili hned na několik takových chyb. Třeba slovo „Staronový“ se v anglickém překladu objevilo jako vlastní jméno přivlastňovací: „Staron’s“. U biblického překladu zase neuronové sítě vytvořily z anglického slova „cymbal“ česky znějící novotvar „cinkál“. Překlad listu Korintským také ukazuje, že původní překlad byl mnohem lepší.

Zajímavé chyby vzniklé strojovým překladem

Jinde došlo při překladu k výraznému posunutí významu. Třeba když ústava „zaručuje určitým právům lidi“, namísto správného „zaručuje lidem určitá práva“. Nebo když v textu článku našeho kolegy Karla Pacnera nový překladač drasticky převrátil význam věty „Když odcházeli, málem mně, bratra a babičku zabili, protože domky v naší vesnici zapálili.“ (Poznámka redakce: Všimněte si překlepu ve slově mně v původní větě, správně má být mě nebo mne. Překlep jsme v originále zachovali z důvodu integrity testu, ve zdrojovém článku jsme ale již chybu opravili. Na překlad neměl překlep vliv - tedy překlad dopadl stejně s překlepem i bez něj.)

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: článek na Technet.cz)

Takových příkladů se dá najít celá řada. Složitost takových chyb indikuje, jak komplexní je překládání pomocí neuronových sítí, které se učí napříč jazyky. Bude proto zajímavé sledovat, jak rychle Google Translate dokáže tyto chyby opravit. Mimochodem, chybu s „bratrovraždou“ již systém opravil...

Vtipná chyba již v překladu není

Další zajímavosti Méně nepřeložených slov, lepší práce s větami

Neuronové sítě přinesly jednoznačné vylepšení co do počtu nepřeložených slov. Zatímco předchozí verze nedokázala přeložit v našich textech (přes sedm tisíc slov) celkem 19 slov (tedy nechala je v textu nepřeložené), nová verze přeložila všechny kromě čtyř slov. Takto markantní rozdíl lze vysvětlit právě odlišným fungováním neuronových sítí, které se učí „napříč jazyky“. Překladač si tedy význam slova může odvodit z kontextu i za pomocí dat, která má „nastudovaná“ v úplně jiném jazyce.

Překlad českého textu bez diakritiky (zdroj: Facebook)

Zlepšilo se třeba překládání hovorových výrazů, slov, ve kterých je překlep nebo slov psaných bez diakritiky. Neuronové sítě jsou evidentně tolerantnější k drobným odlišnostem a berou v úvahu kontext věty.

To se projeví zejména u delších vět, kde překladač celkem spolehlivě zachovává rod nebo čas, a poradí si dokonce se souvětími. Krátké obraty celkem spolehlivě překládá z češtiny do angličtiny i naopak formou, která zní přirozeně, nikoli křečovitě. Dokonce i čárky ve větách vedlejších zvládá mnohem lépe, než před tím, a to i přes značně rozdílné používání čárek v češtině a angličtině.

Ukázka překladů delších vět a souvětí

Jindy naopak nový překladač díky své flexibilitě vyrobí neexistující slovo, respektive slovo s překlepem.

V překladu se objevilo slovo „stratili“.

Tato podivná chyba sice v jen trochu pozměněném kontextu zmizí, zato se objeví jiná, „čokoládový bar“ místo „čokoládové tyčinky“.

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“ místo „čokoládové tyčinky“.

Je tedy vidět, že překládání „po celých větách“ s sebou kromě výhod nese i občasné nevýhody. Pokud překládáte z jazyka, kterému nerozumíte, může být nový překladač obtížně použitelný při objasňování možných nedorozumění. Už totiž není možné podívat se na alternativní překlady jednotlivých slovních spojení v kontextu vět, pouze na celé věty. To považujeme za vůbec největší změnu k horšímu, kterou nová verze přinesla.

Verdikt Výrazná změna k lepšímu. Nejen v angličtině

Co jsme v našem testu zjistili? Nová verze Překladače Google je skutečně novou verzí, nikoli jen nějak drobně či kosmeticky vylepšenou. Na kvalitě překladů je to znát. Ne vždy je změna k lepšímu, ale když jsme u všech čtyřiceti textů (celkem 2 293 slov) porovnali předchozí a současné překlady, je jasné, že mnohem častěji byla změna krokem k lepšímu.

Skoro ve třech pětinách došlo ke zlepšení překladu, pouze v jedné pětině se překlad zhoršil. Nejčastěji došlo ke zhoršení u oněch již zmíněných „špeků“, tedy ustálených frází a idiomů. Skoro ve všech ostatních případech došlo k mírnému či výraznému zlepšení.

Vývoj a historie strojového překladu

Podíváme-li se na překlady vět z češtiny do angličtiny a naopak, vidíme, že Překladač Google si i nadále lépe poradí s překlady do angličtiny. To by nemělo nikoho udivit, angličtina je nejpoužívanější jazyk na světě, takže systém může čerpat z většího množství příkladů do a z různých jazyků. Navíc jde o jazyk s minimální flexí (skloňování, časování). Překlady do češtiny jsou o trochu méně srozumitelné, ale právě zde mají neuronové sítě velkou šanci zazářit. Už od prvního dne zde bylo patrné velké zlepšení. (Kategorii „špeků“ v zájmu férovějšího hodnocení v následujících dvou srovnáních vynecháváme.)

Nezapomínejme samozřejmě, že průměrné hodnocení 2,71 z pěti má stále k dokonalosti daleko. V některých situacích se vyrovná lidským překladatelům, většinou ale musí uživatelé vzít zavděk „jen“ překladem srozumitelným.

Srovnání překladů

Podívejte se na další příklady překladů

Na čtení krásné literatury v jazyce, kterým nevládneme, to zatím nestačí. Už dávno ale Překladač Google překonal funkčnost jednoduchého automatizovaného slovníku. S nástupem neuronových sítí se z Překladači otevírají úplně nové možnosti zlepšování. Ona „černá skříňka“ nyní nalézá mezi jazyky z celého světa souvislosti, o kterých lingvisté neměli ani ponětí.

Už se docela těšíme, až za rok tento test zopakujeme. Pak se teprve ukáže skutečný potenciál strojového učení. Malé děti se za jeden rok dokáží naučit velmi dobře ovládnout nový jazyk. Mladá umělá inteligence, která se učí z milionů textů z celého světa, se o to nyní pokouší se stejnou vervou.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Aktualizace: Doplnili jsme informace o typu použité neuronové sítě.

Co říkáte na nové překlady pomocí neuronových sítí?

celkem hlasů: 1135

Hlasování skončilo

Čtenáři hlasovali do 0:00 středa 17. května 2017. Anketa je uzavřena.

Je to lepší, než jsem čekal(a) (It's better than I expected) 716

Budeme tam cobydup (We'll be cobydup there) 235

Zatím nic moc (Not so much yet) 145

Že já se vůbec učil(a) cizí jazyky! (That I have ever taught foreign languages!) 39

Autoři: Pavel Kasík, s přispěním Matouše Lázňovského

Témata: překlad, překladač, Google, věta, Neuronové sítě, idiom, vůně, Wikipedie, Facebook, Portable Document Format (PDF), zpráva, Oscar Wilde, AI (Umělá inteligence), angličtina, Wikipedia

Komerční sdělení

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 172 příspěvků

23. dubna 2024 13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 29 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví

v diskusi je 17 příspěvků

22. dubna 2024

Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Byla to druhá nejjasnější hvězda. V budoucnu může svítit jako druhý Měsíc

v diskusi je 17 příspěvků

21. dubna 2024

Velmi neobvyklá hvězda éta Carinae v devatenáctém století náhle zjasnila a stala se druhou...

Pomník Jana Žižky na Vítkově vznikal skoro 30 let

v diskusi jsou 4 příspěvky

27. dubna 2024

27. dubna 1924 zahájil Spolek pro zbudování pomníku Jana Žižky na Žižkově veřejnou sbírku na jeho...

Přistávat s vrtulníkem je jako balancovat na míči a zůstat při tom něžný

v diskusi nejsou příspěvky

27. dubna 2024

Mysli na to, že při záchraně druhých nesmíš sebe ani nikoho jiného ohrozit. Tak zněla jedna z...

Učili jsme se od alpských záchranářů, líčí pilot počátky letecké záchranky

v diskusi jsou 3 příspěvky

26. dubna 2024

Exkluzivně Za kniplem vrtulníku strávil přes 9 250 hodin. Stál u zrodu letecké záchranné služby, létal s...

Sphere jako osmý div světa? Zábavní komplex ve Vegas je technologický zážitek

v diskusi je 17 příspěvků

25. dubna 2024

Uvidíte v ní famózní obraz s nejvyšším rozlišením na světě, do uší zahraje sto šedesát tisíc...

Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Zjistit více

Bývalý fitness trenér Kavalír zrušil asistovanou sebevraždu, manželka je těhotná

Bývalý fitness trenér Jan Kavalír (33) trpí osmým rokem amyotrofickou laterální sklerózou. 19. dubna tohoto roku měl ve...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...

Horňáci versus dolňáci. Víme, čemu muži dávají přednost, a je to překvapení

Ženské tělo je pro muže celkově velmi atraktivní a nabízí jejich očím mnoho zajímavých partií. Největší pozornosti se...

Za vytlačení z linky do Brna musí Student Agency zaplatit náhradu 21 milionů

Společnost Student Agency provozující autobusy a vlaky pod označením RegioJet musí zaplatit bývalému konkurentovi 21...

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

iDNES.cz

© 1998–2024 MAFRA, a. s. a dodavatelé Profimedia, Reuters, ČTK, AP. Rozmnožování obsahu pro účely automatizované analýzy textů nebo dat dle ustanovení § 39c autorského zákona je bez souhlasu MAFRA, a. s. zakázáno. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s. zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s. IČ: 45313351.

mobilní verze

Přihlášení