Počítače zítřka nás uvidí a uslyší

  • 15
Nová uživatelská rozhraní budou schopna reagovat na gesta a mluvené slovo. Budeme za pár let ovládat počítač pouze hlasem? Nebo klávesnici a myš žádná nová technologie nenahradí?

Počítače budoucnosti budou schopné vykonávat úkoly podle toho, co jim řeknete, na co budete ukazovat prstem nebo kam se podíváte. To ovšem neznamená, že vaše klávesnice a myš brzy zmizí. Nová rozhraní je spíše jen doplní. „Nikdy však není třeba vyhazovat cokoliv, co funguje,“ říká Joseph Olive, ředitel multimediální komunikační výzkumné laboratoře firmy Lucent Technologies.

Výzkumní pracovníci, kteří tvoří nové generace uživatelských rozhraní, přistupují k ovládání počítačů pragmaticky. K dosavadním způsobům přidávají podporu rozpoznávání řeči, pohledu, gest a dalších přístupů. Vždy ovšem záleží na konkrétní situaci - a na tom, co v ní dává smysl.
V ideálním případě zvládnou počítače zítřka lépe odhadovat uživatelova přání a příkazy psané klávesnicí tak už nebudou nezbytné. „To se bude týkat některých rozhraní, která si uvědomují kontext,“ říká Ted Selker, vedoucí skupiny context-aware výzkumu v mediální laboratoři univerzity MIT. Webová aplikace tak bude třeba schopna vycítit nejen pohyb vaší myši, ale i pohyby oka, a podle toho odhadnout, jestli uživatel již navštívil webovou stránku někdy v minulosti a jaké informace ho tam zajímají - a pak dynamicky vygenerovat stránku podle těchto zájmů. „Do roku 2006 bude počítač vědět víc o tom, proč děláte to, co děláte a co může udělat pro to, aby vám pomohl,“ odhaduje Sleker.

Řekni mi to

Programy na rozpoznávání hlasu již začínají pronikat do aplikací určených pro služby zákazníkům po telefonu. Dnešní systémy jsou ale často omezené na jednoduché úkoly, jako například na vyslovení jména společnosti, po němž vám systém sdělí cenu jejích akcií. Práce na systémech umožňující širší využití však již začala.
„Co se snažíme intenzivně zkoumat, je možnost volnějšího způsobu vyjadřování,“ říká Olive. Pobočka firmy Lucent sídlící v New Jersey nedávno testovala prototyp automatického telefonního operátora ve finanční instituci. Volající zde může říct něco jako „Ztratil jsem šekovou knížku“ místo toho, aby se probíral zdlouhavým seznamem položek nabídky.

Testování probíhalo tak, že volající byli podle vyřčených požadavků směrováni do jednoho ze zhruba 40 oddělení. Asi 8 % hovorů muselo být přepnuto k lidskému operátorovi, protože požadavky nebyly dost specifické. „Hovory, které vyřizoval počítač, však byly z 96 % přesné,“ tvrdí Olive.

V mobilech a v PDA

Odborníci na rozpoznávání řeči věří, že tato technologie bude užívána častěji v mobilních zařízeních. Podle Mika Phillipse, hlavního technologa firmy SpeechWorks International z Bostonu, je např. přece jen těžké navrhnout jednoduše obsluhovatelné rozhraní pro přehrávač MP3 v autě, když přehrávač má v paměti několik tisíc písniček. Další sama se nabízející použití ve voze zahrnují důmyslnější hands-free umožňující bezdotykové vytáčení čísel na telefonu nebo kontrolu klimatizačního zařízení.
Rozpoznávání řeči by také mělo usnadnit používání nějakého malého přenosného zařízení k tomu, aby byl možný přístup k datům uloženým na větším zařízení. „V podstatě cokoli, co máte na pracovní ploše kancelářského počítače, může být přístupné a ovladatelné hlasem,“ předpovídá Olive.

Mnozí odborníci na rozpoznávání řeči věří, že robustní infrastruktura mobilních sítí třetí generace, která umožňuje vysokorychlostní přenosy dat, přinese zlepšení i do oblasti rozpoznávání řeči na bezdrátových zařízeních.

Jak na to

„Aby bylo rozpoznávání řeči efektivní, mělo by být částečné zpracovávání provedeno přímo v mobilním aparátu nebo v PDA a další část pak v síti,“ říká Bill Mark, viceprezident informačních a počítačových věd ve firmě SRI International z Kalifornie. To podle něj pomůže uživatelům překonat problémy, jako je hluk a trhaný příjem při některých bezdrátových spojeních.

V některých případech by bylo lepší, kdyby zařízení udělalo víc než jen jednoduché zpracování vyřčeného povelu. Například by bylo vhodné, kdyby byl vyslán širší požadavek vyžadující ceny letů do Paříže v určitém měsíci než jen informace počítači, že se volající ptal, kolik stojí letenka z Bostonu do Paříže příští měsíc?“
To je ovšem pro architekta programu i zařízení náročný úkol. Vyžaduje to jistou dávku inteligence. Mark k tomu navíc připomíná další související problém: „Jak může počítač aerolinek vyslat něco jako formulář pro požadovanou rezervaci letu přímo do mobilního zařízení tak, aby jeho řečová reprezentace byla srozumitelná v daném v kontextu a byl poslán zpět správný požadavek?“

V pohledu

Výzkumníci také zkoumají, jak mohou počítače reagovat na pohyby očí. A opět je tu důležité klávesnici a myš spíše doplnit, než je zcela nahradit. „Přidejte kameru na sledování pohybů očí k přenosnému počítači, a systém pak může vidět, na co se díváte na obrazovce,“ říká Daniel M. Russell, ředitel laboratoře pro výzkum uživatelů a jejich zkušeností ve výzkumném centru firmy IBM v San José.
To by mohlo pomoci snadnějšímu užívání stolních i přenosných počítačů. Russell říká, že podle něj jednoho dne vzniknou systémy s klávesou „Skoč“ (Jump) pod mezerníkem. Když budete chtít zadat příkaz, podíváte se na vysunovací volby na nabídkové liště na obrazovce a jednu pohledem vyberete. Aby se příkaz provedl, stisknete klávesu „Skoč“. „Bude to, jako by počítač věděl, co chcete dělat,“ říká Russell. „Všechno se zrychlí.“
Podle Russella jsou zatím kamery vhodné pro komerční zavedení takového systému příliš velké a drahé, ale to se podle něj může tak do pěti let změnit.

V kombinaci

Projekt Oxygen na universitě MIT také hledá, jak zkombinovat zrak a řeč tak, aby počítač mohl reagovat na uživatelovu řeč a ukazování. „Nemyslím, že bychom co nevidět nahradili aplikaci Microsoft Word gestikulačním rozhraním,“ říká Trevor Darrell, zástupce profesora a výzkumník umělé inteligence na MITu. Zatím se podle něj plánuje používání alternativ tam, kde to dává smysl. Tedy např. v informačních kioscích, v autech nebo v konferenčních místnostech.
„Naším nejvšeobecnějším cílem je udělat počítače zajímavější nebo užitečnější,“ vysvětluje Darrell. Jednou z cest, jak jejich používání usnadnit kdykoli a kdekoli, mohou být právě nově vyvíjená rozhraní.

Článek přinášíme ve spolupráci s časopisem Computerworld.