Popovídejte si s internetem

  • 9
Ruku v ruce s rozvojem technologií pro strojové rozpoznávání řeči se vyvíjejí i standardy pro používání tohoto způsobu komunikace s počítačem i v prostředí internetu. World Wide Web Consortium představilo již druhou generaci takového rozhraní. Uživatelé tak budou moci v menu různých zákaznických linek využít hlas místo neustálého tisknutí různých tlačítek na telefonu.
Při letošní návštěvě Billa Gatese v Praze jsme se mohli dozvědět, že Microsoft v poměrně blízké budoucnosti počítá s tím, že lidé budou moci ovládat počítač hlasem. Ostatně již od poloviny minulého roku společnost nabízí beta verzi SpeechServeru. Ten se má stát součástí platformy .NET a s jeho hlavním nasazením se počítá při vytváření automatických systémů pro telefonické vyřizovaní dotazů.

I z tohoto příkladu je vidět, že celé odvětví rozpoznávání hlasu se již čím dále tím více přibližuje bodu, kdy bude moci být nabízen široké veřejnosti komerční produkt založený na této bázi. Tento vlak si nenechala ujet ani organizace World Wide Web Consortium (W3C), která tento týden oznámila dokončení vývoje formátu VoiceXML 2.0.

Obsah, který mluví

Ještě před oznámením W3C byla organizací VoiceXML Forum přijata specifikace X+V (XHTML+Voice Profile) ve verzi 1.2. X+V přináší možnost komunikovat s obsahem webu prostřednictvím hlasu. To umožňuje díky propojení některých webových technologií, jako je XHTML a XML Events, s VoiceXML a základy XML, které jsou vyvinuty v rámci technologie W3C Speech Interface Framework.

X+V spojuje hlasové moduly, které pracují se syntézou řeči, mluvenými dialogy, hlasovými příkazy či mluvnicí. Vše přitom bylo vyvíjeno tak, aby to odpovídalo připravovanému standardu VoiceXML 2.0.

Specifikace VoiceXML 2.0 následovala vzápětí po uvedení X+V verze 1.2. Organizace W3C, která se VoiceXML stará, tuto aktuální verzi nabídla pro připomínkové řízení. Zmíněná specifikace je dalším příspěvkem k vyvíjené technologii Speech Interface Framework. Jako důsledek jejího případného nasazení budou moci uživatelé, možná již poměrně brzy, v menu různých zákaznických linek využít hlas místo neustálého tisknutí různých tlačítek na telefonu.

Přínos VoiceXML

V roce 1998 vzniklo VoiceXML fórum, které se na základě jazyka XML rozhodlo vytvořit prostředek pro práci s hlasem. První výstup byl publikován v roce 2000, kdy byla vypuštěna verze VoiceXML 1.0.

Smysl vzniku specifikace VoiceXML spočívá v přemostění rozdílů mezi mluveným a psaným slovem. Má umožnit vývojářům kombinovat umělou řeč, digitalizované audio, rozpoznávání řeči s případným vkládáním požadavků a informací pomocí dnes tradičních metod, jako klávesnice, nebo technologie elektronického inkoustu, jenž je známá například z Tablet PC.