Krátké zprávy

Rozpoznávání řeči (ilustrační foto)

Rozpoznávání řeči (ilustrační foto) | foto: Profimedia.cz

Náš počítač rozumí konverzaci lépe než lidé, předvedli vědci z Microsoftu

  • 45
Výzkumníci z Microsoftu oznámili přelomový milník. Jejich software udělal při přepisování lidské řeči stejně, respektive o trochu méně chyb než lidé.

„Náš software dosáhl rovnocennosti s lidmi,“ pochlubil se Xuedong Huang, šéf výzkumu u firmy Microsoft. Nemluví o nějakých lidských právech, ale o schopnosti přepisovat běžnou lidskou konverzaci do textu.

V pondělí publikovali studii (zatím není publikována v recenzovaném časopise), kde ukazují, že dosáhli chybovosti 5,9 % ve standardním testu NIST. To se může zdát jako vysoká míra chybovosti, ale lidé při přepisování téže konverzace obvykle dělají stejně nebo o trochu více chyb. Jde totiž o reálné nahrávky telefonických rozhovorů a ne každému slovu je dobře rozumět.

Přestože jde o symbolicky významný milník, kvantitativně se nejedná o velký skok. Už minulý měsíc Microsoft dosahoval chybovosti (WER) 6,3 %. Většina týmů, které se rozpoznáváním řeči zabývají, v poslední době dosahují výrazných zlepšení díky novým pokrokům ve strojovém učení. Programátoři, kteří chtějí do svého software zabudovat funkci pro rozpoznávání řeči, tak mají z čeho vybírat.

„Před pěti lety bych si nedokázal představit, že toho dosáhneme,“ uvedl Harry Shum, viceprezident týmu Microsoft Artificial Intelligence and Research Group. „Vůbec bych si tehdy nemyslel, že je to možné.“ Tehdy Microsoft dosahoval chybovosti mezi 17 a 27 procenty. Rozpoznání konverzační angličtiny přitom patří k těm nejtěžším úkolům, jak ukazuje srovnání NIST z roku 2009.