Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


„Málem jsem zabil bratra!“ Nový překladač je lepší, chyby jsou vtipnější

aktualizováno  6:51
Jak si neuronové sítě Překladače Google poradí s češtinou? Otestovali jsme překladač na 135 větách a srovnali novou verzi se starou. Na první pohled je patrné nejen výrazné zlepšení, ale i zásadní změna způsobu, jak systém využívá neuronové sítě k překladu celých vět. Ve specifických situacích se ovšem ještě má co učit.

Překlad pomocí neuronových sítí (ilustrační snímek) | foto: montáž: Pavel Kasík - Technet.czProfimedia.cz

„Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě mohou dokonce využít to, co se naučily v jiných jazycích, aby zlepšily překlad z jazyka nebo do jazyka, kde není dostatek údajů o školení.“ Tak Překladač Google přeložil z angličtiny do češtiny popis svých nových funkcí (více v našem článku). Až na drobné chybky je to překvapivě čitelný český text bez gramatických chyb.

„Díky zapojení strojového učení neuronových sítí naše překlady přes noc udělaly takový pokrok, jako předtím za deset let od spuštění služby,“ řekl nám Barak Turovsky, produktový manažer Google Translate, u příležitosti spuštění této novinky pro český jazyk v polovině dubna.

Na první pohled bylo výrazné zlepšení patrné především u delších vět a souvětí. Zároveň jsme ale našli řadu příkladů, kde se překlad citelně zhoršil, třeba u ustálených slovních spojení a idiomů. K pořádnému otestování jsme proto (ještě před spuštěním neuronových překladů) nasbírali 135 vět nejrůznějších žánrů a stylů a porovnali staré překlady s novými.

Porovnejte staré překlady s novými v naší galerii

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Zobrazit galerii vybraných ukázek staré a nové verze překladu před a po zavedení systému pro překlad celých vět pomocí strojového učení.

Sběr dat probíhal v březnu až dubnu 2017, přičemž nové překlady jsme sbírali nejpozději tři dny po aktivování funkce neuronových sítí. Všechny použité texty si můžete stáhnout v PDF. Následně jsme každou větu zanesli do databáze a porovnali oba překlady ve slepém testu (hodnotitel nevěděl, který překlad pochází z které verze překladače). Takže jak zní verdikt?

První dojemPřekladač se skutečně znatelně zlepšil

Přehled hodnocení překladů

Přehled hodnocení překladů

Každou větu jsme ohodnotili na škále od jedničky do pěti, kde skóre 5 byl dokonalý bezchybný překlad, zatímco nejnižší skóre signalizuje mizerný překlad se zásadními chybami nebo dokonce zásadní změnou významu.

Jako první jsme srovnali malý vzorek textů, ke kterým jsme měli k dispozici historické srovnání díky našemu článku z roku 2008. Devět textů jsme tedy mohli porovnat ve třech verzích a posoudit tedy alespoň zhruba, zda je zlepšení překladače skutečně tak skokové, jak Google sliboval.

Srovnání překladů 2008, starých 2017 a nových 2017
Originál 2008 2017 před2017 po
The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn. Studio byla naplněna bohatou vůni růží, a když se světla letní vítr vzbudil uprostřed stromů na zahradě, tam přišlo přes otevřené dveře těžkých vůni z lila, nebo více delikátní parfém z růžového-květinové trn.Studio bylo naplněno bohatou vůní růží, a když světlo léto vítr míchá uprostřed stromů v zahradě, přišel otevřenými dveřmi těžká vůně šeříku nebo více delikátní vůně růžového-kvetoucí trn. Ateliér se naplnil bohatým zápachem růží a když se v zahradě stromy rozvířil lehký letní vítr, prošly otevřenými dveřmi těžká vůně lila nebo jemnější vůně růžového kvetoucího trnu.

Na textu z románu Oscara Wildea je vidět, že pokrok za deset let je značný. A stejně tak je znatelný pokrok nové verze s neuronovými sítěmi oproti verzi bez ní. V kvantitativním hodnocení je vidět, že skok mezi 2008 a 2017 je o něco významnější než pokrok po zavedení neuronových sítí, ovšem mějme na paměti, že jde o celkem malý vzorek devíti krátkých ukázek.

Lze tedy říci, že skok v kvalitě překladů je skutečně znatelný, i když možná ne tak výrazný, jako bylo zlepšení za posledních devět až deset let. Pojďme se podívat podrobněji na větší vzorek přeložených textů; nadále už ovšem budeme porovnávat pouze překlady z dubna 2017, těsně před a těsně po zavedení nového způsobu překládání.

Podívejte se, v čem spočívá vylepšení Překladače Google:

Žánry textuZprávy a encyklopedie se překládají nejlépe

Nejzajímavější pro nás bylo sledovat, u jakých typů textu zaznamenal překladač největší zlepšení. Srovnávali jsme několik žánrů textů, od neformálních poznámek v diskuzi nebo komentářů na Facebooku až po formální texty encyklopedické či právnické.

Jednoznačně největší pokrok udělal Google Translate u překladu encyklopedických textů. To není překvapivé vzhledem k tomu, že encyklopedické texty jsou obvykle psané jasně, jednoznačně a nepracují s metaforami nebo idiomy. Navíc je zde (například díky Wikipedii) obrovské množství snadno dostupných textů, na kterých se neuronové sítě (a předtím statistické modely) mohou ustavičně trénovat.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladu z češtiny do angličtiny (vlevo) a naopak (vpravo) u textů z Wikipedie

Také zpravodajské texty (kde lze opět očekávat jednoznačné formulace) se v nové verzi výrazně zlepšily. Potíže má ale překladač (starý i nový) s dvojsmysly a zavedenými frázemi v novinových titulcích. Celkově lze ale říci, že Angličan či Američan si s Google Translate může přečíst české zpravodajství a porozumět přinejmenším podstatě článku.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: oznámení PID)

V jiných žánrech bylo zlepšení méně patrné. V próze se nový překladač snaží zohlednit celou větu, což dává lepší výsledky u delších vět, ale zároveň občas vede k novým - a celkem nečekaným - chybám. Strojový překlad poezie je nadále prakticky spíše nepoužitelný. A u českých přísloví či anglických idiomů jsme naopak zaznamenali překvapivé zhoršení.

Nejvtipnější chybyOtrocky přeložená přísloví a bratrovražda

Jedinou kategorií, ve které se neuronové sítě oproti původnímu stavu jednoznačně zhoršily, jsou „špeky“. Tak jsme si pracovně nazvali různá přísloví, ustálené fráze a idiomy. Zatímco původní verze Překladače Google si s většinou z nich dobře poradila, nová neuronová síť je bohužel překládá otrocky a doslovně.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladů přísloví a idiomů

Předpokládáme ale, že postupem času se nová verze také naučí překládat tyto fráze přeneseně, nikoli doslova. Mohou tomu napomoci i dobrovolníci, kteří pomáhají opravovat a vylepšovat překlady. Ostatně i vy, kdykoli překlad v Překladači Google opravíte, vysíláte zároveň neuronové síti jasný signál: tudy ne, nauč se to jinak! Původní překlady jsou navíc zatím stále ještě dostupné po rozkliknutí alternativ, takže je vidět, že Google své původní těžce nabyté vědomosti zahodit nehodlá.

Mnohem zajímavější bylo sledovat chyby, u kterých není na první pohled jasné, jak vznikly. O tom ostatně mluví i Turovsky, podle kterého neuronové sítě připomínají děti učící se cizí jazyk: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

V rámci našeho testu jsme narazili hned na několik takových chyb. Třeba slovo „Staronový“ se v anglickém překladu objevilo jako vlastní jméno přivlastňovací: „Staron’s“. U biblického překladu zase neuronové sítě vytvořily z anglického slova „cymbal“ česky znějící novotvar „cinkál“. Překlad listu Korintským také ukazuje, že původní překlad byl mnohem lepší.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Zajímavé chyby vzniklé strojovým překladem

Jinde došlo při překladu k výraznému posunutí významu. Třeba když ústava „zaručuje určitým právům lidi“, namísto správného „zaručuje lidem určitá práva“. Nebo když v textu článku našeho kolegy Karla Pacnera nový překladač drasticky převrátil význam věty „Když odcházeli, málem mně, bratra a babičku zabili, protože domky v naší vesnici zapálili.“ (Poznámka redakce: Všimněte si překlepu ve slově mně v původní větě, správně má být nebo mne. Překlep jsme v originále zachovali z důvodu integrity testu, ve zdrojovém článku jsme ale již chybu opravili. Na překlad neměl překlep vliv - tedy překlad dopadl stejně s překlepem i bez něj.)

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: článek na Technet.cz)

Takových příkladů se dá najít celá řada. Složitost takových chyb indikuje, jak komplexní je překládání pomocí neuronových sítí, které se učí napříč jazyky. Bude proto zajímavé sledovat, jak rychle Google Translate dokáže tyto chyby opravit. Mimochodem, chybu s „bratrovraždou“ již systém opravil...

Vtipná chyba již v překladu není

Vtipná chyba již v překladu není

Další zajímavostiMéně nepřeložených slov, lepší práce s větami

Neuronové sítě přinesly jednoznačné vylepšení co do počtu nepřeložených slov. Zatímco předchozí verze nedokázala přeložit v našich textech (přes sedm tisíc slov) celkem 19 slov (tedy nechala je v textu nepřeložené), nová verze přeložila všechny kromě čtyř slov. Takto markantní rozdíl lze vysvětlit právě odlišným fungováním neuronových sítí, které se učí „napříč jazyky“. Překladač si tedy význam slova může odvodit z kontextu i za pomocí dat, která má „nastudovaná“ v úplně jiném jazyce.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Překlad českého textu bez diakritiky (zdroj: Facebook)

Zlepšilo se třeba překládání hovorových výrazů, slov, ve kterých je překlep nebo slov psaných bez diakritiky. Neuronové sítě jsou evidentně tolerantnější k drobným odlišnostem a berou v úvahu kontext věty.

To se projeví zejména u delších vět, kde překladač celkem spolehlivě zachovává rod nebo čas, a poradí si dokonce se souvětími. Krátké obraty celkem spolehlivě překládá z češtiny do angličtiny i naopak formou, která zní přirozeně, nikoli křečovitě. Dokonce i čárky ve větách vedlejších zvládá mnohem lépe, než před tím, a to i přes značně rozdílné používání čárek v češtině a angličtině.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladů delších vět a souvětí

Jindy naopak nový překladač díky své flexibilitě vyrobí neexistující slovo, respektive slovo s překlepem.

V překladu se objevilo slovo „stratili“.

V překladu se objevilo slovo „stratili“.

Tato podivná chyba sice v jen trochu pozměněném kontextu zmizí, zato se objeví jiná, „čokoládový bar“ místo „čokoládové tyčinky“.

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“...

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“ místo „čokoládové tyčinky“.

Je tedy vidět, že překládání „po celých větách“ s sebou kromě výhod nese i občasné nevýhody. Pokud překládáte z jazyka, kterému nerozumíte, může být nový překladač obtížně použitelný při objasňování možných nedorozumění. Už totiž není možné podívat se na alternativní překlady jednotlivých slovních spojení v kontextu vět, pouze na celé věty. To považujeme za vůbec největší změnu k horšímu, kterou nová verze přinesla.

VerdiktVýrazná změna k lepšímu. Nejen v angličtině

Co jsme v našem testu zjistili? Nová verze Překladače Google je skutečně novou verzí, nikoli jen nějak drobně či kosmeticky vylepšenou. Na kvalitě překladů je to znát. Ne vždy je změna k lepšímu, ale když jsme u všech čtyřiceti textů (celkem 2 293 slov) porovnali předchozí a současné překlady, je jasné, že mnohem častěji byla změna krokem k lepšímu.

Skoro ve třech pětinách došlo ke zlepšení překladu, pouze v jedné pětině se překlad zhoršil. Nejčastěji došlo ke zhoršení u oněch již zmíněných „špeků“, tedy ustálených frází a idiomů. Skoro ve všech ostatních případech došlo k mírnému či výraznému zlepšení.

Vývoj a historie strojového překladu

Podíváme-li se na překlady vět z češtiny do angličtiny a naopak, vidíme, že Překladač Google si i nadále lépe poradí s překlady do angličtiny. To by nemělo nikoho udivit, angličtina je nejpoužívanější jazyk na světě, takže systém může čerpat z většího množství příkladů do a z různých jazyků. Navíc jde o jazyk s minimální flexí (skloňování, časování). Překlady do češtiny jsou o trochu méně srozumitelné, ale právě zde mají neuronové sítě velkou šanci zazářit. Už od prvního dne zde bylo patrné velké zlepšení. (Kategorii „špeků“ v zájmu férovějšího hodnocení v následujících dvou srovnáních vynecháváme.)

Nezapomínejme samozřejmě, že průměrné hodnocení 2,71 z pěti má stále k dokonalosti daleko. V některých situacích se vyrovná lidským překladatelům, většinou ale musí uživatelé vzít zavděk „jen“ překladem srozumitelným.

Srovnání překladů

Podívejte se na další příklady překladů

Na čtení krásné literatury v jazyce, kterým nevládneme, to zatím nestačí. Už dávno ale Překladač Google překonal funkčnost jednoduchého automatizovaného slovníku. S nástupem neuronových sítí se z Překladači otevírají úplně nové možnosti zlepšování. Ona „černá skříňka“ nyní nalézá mezi jazyky z celého světa souvislosti, o kterých lingvisté neměli ani ponětí.

Už se docela těšíme, až za rok tento test zopakujeme. Pak se teprve ukáže skutečný potenciál strojového učení. Malé děti se za jeden rok dokáží naučit velmi dobře ovládnout nový jazyk. Mladá umělá inteligence, která se učí z milionů textů z celého světa, se o to nyní pokouší se stejnou vervou.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech....

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Aktualizace: Doplnili jsme informace o typu použité neuronové sítě.


Co říkáte na nové překlady pomocí neuronových sítí?

celkem hlasů: 1135

Hlasování skončilo

Čtenáři hlasovali do 0:00 17. května 2017. Anketa je uzavřena.

Je to lepší, než jsem čekal(a) (It's better than I expected) 716
Budeme tam cobydup (We'll be cobydup there) 235
Zatím nic moc (Not so much yet) 145
Že já se vůbec učil(a) cizí jazyky! (That I have ever taught foreign languages!) 39
Autoři:




Hlavní zprávy

Další z rubriky

Čínský policista kontroluje internetový obsah (ilustrační snímek)
Čína definitivně zablokuje lidem volný internet. Od února zakáže VPN

Čína postupně zaceluje otvory ve své velké digitální zdi. Aby přes ni nebylo možné projít, zakáže v příštím roce lidem přístup přes privátní sítě. Přístup k...  celý článek

Zablokované internetové tržiště Hansa, kde uživatelé prodávali nelegální zboží.
Úřady zastavily provoz největších internetových tržišť s ilegálním zbožím

Velký koordinovaný policejní zásah v několika zemích měl za následek konec dvou největších obchodních center s nelegálním zbožím na internetu.  celý článek

Síťová neutralita je stále v ohrožení.
Internet, jak jej známe, může skončit, varoval tvůrce webu

Stovky firem tento týden protestují kvůli omezení internetu a zpomalují své služby. Středa 12. července byla vyhlášena dnem protestu za zachování síťové...  celý článek




LAMAX Beat Street ST-1LAMAX Beat Street ST-1

Porovnejte ceny, pročtěte recenze a objednejte přímo u nás.

www.Heureka.cz

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.