Kdy budeme počítač ovládat hlasem?

  • 18
Klávesnice a myš jsou v současnosti nejrozšířenější zařízení pro ovládání počítače a programů. Tento způsob práce ale není příliš přirozený, a tak se hledají cesty, jak počítač řídit i jiným způsobem. Jak daleko je čas, kdy budeme na počítač pouze mluvit?

Nad různými způsoby ovládání počítače a dalších přístrojů bádají lidé již od jejich vzniku. Na většině současných zařízení je použito ovládání rukou a prsty, ať již je to několik tlačítek, celá klávesnice, nebo myš či elektronické pero jako u Tablet PC. Toto řešení, i když si na něj lidé zvykli, má však mnoho nedostatků a je ve své podstatě nepřirozené.

Odborníci se proto pokoušejí najít i další způsoby, jak přizpůsobit stroje tomu, aby dokázaly přesně reagovat na přirozenější způsoby komunikace. Nejdále z nich se zatím dostal vývoj hlasového ovládání.

Ovládání hlasem znovu na vzestupu

Několik desítek let výzkumu v oblasti rozpoznávání řeči začíná pomalu přinášet své ovoce. Nejen díky samotné technologii, ale i v důsledku nárůstu výkonu počítačů je nyní mnohem příznivější doba na implementaci těchto systémů. Ty sice ještě zdaleka nejsou dokonalé, ale již nabízí poměrně pokročilé funkce.

O tom, že vývoj jde kupředu mílovými kroky, svědčí i nabídka zařízení s jednoduchým hlasovým ovládáním. Patrně nejznámější je v tomto ohledu technologie hlasového vytáčení využitá v mobilních telefonech. Společnost Siemens dokonce již v své řadě Xelibri nabízí "mobily" které nejsou opatřeny klávesnicí a k jejich ovládání slouží pouze hlas.

Je zajímavé, že po roce 2000, kdy se celkový trh s technologiemi na rozpoznávání řeči dostal na svůj vrchol došlo v následujících dvou letech k mírnému poklesu. Současná čísla, která tento měsíc zveřejnila společnost Gartner, však již ukazují, že by tento rok mohlo znovu dojít k určitému nárůstu. Vyjádřeno v reálných číslech v roce 2000 se objem trhu s technologií pro rozpoznávání řeči pohyboval kolem 140 miliónů amerických dolarů. Do roku 2002 pak došlo k propadu až na 128 miliónů USD a v letošním roce se očekává obrat 130 mil. USD.

Na zmíněných číslech se přitom nejvíce podílí oblast severní Ameriky, která vytváří více než 60 % z celkového obratu. Na území Evropy, středního Východu a Afriky se přitom tento podíl pohybuje mírně nad 25 %. Očekává se však, že se tyto poměry začnou více vyrovnávat.

Vývoj v této oblasti s potěšením sledují přední společnosti vyvíjející systémy pro rozpoznávání řeči, jako jsou ScanSoft či Nuance. Podpora této technologii společnostmi jako je Microsoft či IBM dává určitou záruku, že se s řečí, jako dalším způsobem ovládání, počítá. Právě tyto společnosti nyní vynakládají značné prostředky na vývoj PC a serverových systémů, které dokáží pracovat s mluvenou řečí.

V polovině roku například společnost Microsoft uvedla první beta verzi SpeechServeru. Ten se má stát součástí platformy .NET a má pomoci při vytváření automatických systémů pro telefonické vyřizovaní dotazů. Společnost Intel na jaře letošního roku představila program „The Audio Visual Speech Recognition (AVSR)“ pro odezírání ze rtů. Ten má ve spolupráci se systémem pro rozpoznávání řeči nabídnout přesnější výsledky.

VoiceXML

Tato technologie se již dočkala svého standardu, který byl nazván VoiceXML. Jak již z názvu vyplývá, jeho základy vycházejí z obecných pravidel XML. To znamená, že by výstupy z tohoto formátu měly být lehce využitelné v dalších programech, případně na webu. Tak jako u jiných standardů i v tomto případe se dá očekávat, že umožní rychlejší rozvoj technologie a zrychlí její přijetí.

Jaká nás v toto oboru čeká budoucnost?

Patrně největšího uplatnění se současné systémy na rozpoznávání řeči dočkají call centrech. Ale například společnost IBM nabízí zákaznické rozhraní, kam mohu lidé zadávat své požadavky pomocí standardních hlasových příkazů. Stále více však bude tato technologie pronikat i do běžného života a na jednotlivé počítače.

Kolem roku 2010 se chystá společnost IBM nabídnout systém, který dokáže převést mluvenou řeč do textové podoby mnohem přesněji a rychleji než člověk. V současné době je chybovost takových produktů pětkrát až desetkrát horší než, když tu samou práci dělá živá osoba. Cesta je však ještě dlouhá.