Premium

Získejte všechny články
jen za 89 Kč/měsíc

Vyzkoušejte si českou mluvicí hlavu

Lze mluvit s počítačem jako s člověkem? Zatím ne. Existuje však program simulující lidskou hlavu s dokonalou výslovností a prvky umělé inteligence. Vyzkoušet si jej můžete i vy. Na fakultě kybernetiky ZČU vzniká umělá bytost, která by v budoucnu mohla nahradit třeba televizní hlasatele.

Hrdinové sci-fi seriálu Červený trpaslík konverzovali s počítačem, jako by to byl člen rodiny. To pochopitelně v reálném světě zatím není možné. Umělá inteligence není na takové úrovni, aby byl počítač, byť vybaven dokonalým softwarem, schopen přirozeně reagovat na nejrůznější slovní narážky a rozvíjet hovor. I v České republice však existují pracoviště, kde se na vývoji podobných systémů pracuje.

Na katedře kybernetiky Západočeské univerzity v Plzni právě vyvíjejí nový projekt s pracovním názvem Mluvicí hlava. Díky němu si můžete opravdu připadat jako postavy onoho sci-fi seriálu. Na monitoru počítače se objeví hlava ženy a vy si s ní můžete popovídat. Zatím se jedná o ranou fázi vývoje, protože skloubit dohromady rozpoznávání řeči, audiovizuální syntézu a software na porozumění řeči je poměrně náročný úkol.  Program vyhodnotí položený dotaz a logicky na něj zareaguje. Takovéto technologie mají sice před sebou ještě desítky let vývoje, ale již dnes můžeme na vlastní oči vidět dílčí úspěchy.

 Zde si můžete vyzkoušet, jak vám virtuální hlava přečte jakýkoliv zadaný text.

Počítač artikuluje jako člověk

Mluvicí hlava je vlastně audiovizuální syntéza řeči. Jde o počítačovou projekci obrazu lidské hlavy, která nejenom že mluví, ale zároveň zcela přesně artikuluje rty. Právě díky tomu je mluvicí hlava zcela unikátní a systém, jakým je zpracována, nemá ve světě obdoby. Již dnes má praktické využití v systémech pro nedoslýchavé a neslyšící či v hlučném prostředí, kdy jsou hlášení doplňována i vizuálním vjemem. Hlava byla vyvíjena jako součást rozsáhlejšího projektu znakové syntézy, ve kterém se animuje celá postava, která umí daný text nejen zopakovat pomocí audiovizuální syntézy, ale i vyznakovat pro neslyšící.

Mluvicí hlava spojuje dva druhy syntézy lidské řeči – vizuální a akustickou. Pohyb rtů, tváří a očí je vizuální syntézou. Aby mluvený projev hlavy vypadal přirozeně, musí se zvuk (akustická syntéza) s vizuální syntézou sladit. Je to podobné jako při dabingu. Dabér se také pokouší svým mluveným projevem "trefit" ústa dabované postavy. V případě mluvicí hlavy zastupuje dabéra počítač. Na každou hlásku má připravenu vlastní mimiku tváře, pohyb rtů, ale i třeba obočí a očí.

Spojení vizuální a akustické syntézy tedy probíhá na hranicích hlásek, respektive fonémů a vizémů. Foném je označení nejkratšího úseku mluvené řeči - hlásky. Vizém je analogicky označení nejmenšího úseku vizuální řeči - tj. vizuální podoby hlásek. Zjednodušeně řečeno, je to například tvar rtů při vyslovení dané hlásky. Aby ke správným fonémům (hláskám) byly syntetizovány (přiřazeny) správné vizémy (mimika), je třeba celý systém řídit. Nejprve se vytvoří zvuk (syntéza řeči) a k němu se přiřadí mimika (vizuální syntéza).

Proč je mimika důležitá

Je všeobecně známo, že lépe rozumíme, co nám kdo povídá, když se na něj díváme. Tomuto jevu se říká vizuální řeč. Je to soubor všech řečových projevů, které můžeme sledovat zrakem. Nejviditelnější je hýbání rty, ale do vizuální řeči patří i pohyb jazyka, zubů, i celkový výraz tváře. Tato stránka řeči je nesmírně důležitá zejména pro sluchově postižené lidi. Zvláště postižení od narození umí spíše odezírat ze rtů nebo znakovou řeč než číst knihy nebo například titulky ve filmu. O českém programu, který umožní neslyšícím "číst" jsme vás informovali v tomto článku.

Vizuální syntéza se provádí v několika krocích. Nejprve je třeba nasbírat dostatečné množství audiovizuálních dat. Nejdůležitější je co nejpřesněji zaznamenat pohyby rtů, tváří, brady a krku. K tomuto zaznamenávání se používají speciální značky nalepené na skutečnou lidskou tvář, které nasnímá kamera při stereo záznamu. Takto zachycený záznam se v počítači zpracuje a provede se 3D rekonstrukce dat. Dalším krokem je výběr řečových jednotek.

Řečová jednotka je vlastně hláska, která se do systému uloží  i s vazbou na své okolí - je takzvaně zakomponována do okolí. To znamená, že každá hláska je v systému uložena několikrát s nejrůznější intonací tak, aby byla použitelná ve všech možných případech. Uvědomíme-li si, jak obtížné je správně intonovat pro člověka - stačí si vzpomenout na průvodkyni na hradě, která místo aby hlasem poklesla, jej naopak zvedne, pak nelze než výslednou podobu mluveného projevu hlavy obdivovat. Posledním krokem je návrh animace modelu a jeho parametrizace pro urychlení výpočtů při samotné řeči. (Podrobněji viz následující rámeček)

Jak se modeluje virtuální hlava

Jak již bylo zmíněno, je důležité co nejpřesněji zaznamenat pohyby celého obličeje. K zaznamenávání pohybu se používají speciální značky, které se nalepí na obličej snímané osoby a pak jsou zachycovány při stereo záznamu tváře. Do oblasti rtů se umístí 8 značek, dvě značky na tváře a jedna na bradě a na krku. Tímto postupem se získává záznam vizuální řeči.

Stereo záznam tváře důležitý pro 3D rekonstrukci hlavy se provádí promítáním úzkého paprsku světla na tvář snímané osoby. Velice zajímavá je snímací soustava, při které je použita jediná kamera, soustava 4 zrcadel, zdroj světelného paprsku a kalibrační deska. Takto se dá získat 3D rekonstrukce tváře snímané osoby. Nasnímaný obraz se zpracuje metodami digitalizovaného zpracování obrazu a výsledkem je model tváře snímané osoby. Tenký paprsek světla kopíruje tvář a údaje o světlých, nejsvětlejších a naopak nejtmavších místech (stínech) jsou zaznamenávány (takzvaná metoda prahování).

Popis povrchu tváře
Popis povrchu tváře

Hlava se učí mluvit desítky hodin

Nedílnou součástí audiovizuální syntézy je již zmíněná  akustická syntéza, neboli samotná řeč. Ta se v dnešní době nejčastěji provádí tzv. konkatenační syntézou. Lidská řeč je při ní zřetězována z řečových jednotek (viz slovníček), které jsou vybrány z tzv. inventáře řečových jednotek. Zjednodušeně řečeno se jedná o databázi hlásek, které do počítače namluví člověk. Jeho hlasem pak program mluví.  Sestavit a natrénovat takový inventář je poměrně náročný proces, který můžeme rozdělit do několika fází.

Nejprve je třeba namluvit celé věty - tzv. korpus - jedním řečníkem. Aby byla rozmanitost řečových jednotek dostatečná a mohlo vzniknout jakékoliv slovo, je třeba do programu namluvit a uložit desítky hodin záznamu. Ten se zpracuje do již zmíněného korpusu a provede se segmentace. Segmentací je myšleno v tomto případě rozdělení na trifóny. Takto nasegmentovaná data se uloží do inventáře řečových jednotek, odkud jsou pak při samotné syntéze vybírána a zřetězována do slov.

Na následujícím obrázku je obecné schéma systému syntézy řeči z textu uvedenou konkatenační metodou.

Malý slovníček

  • Trifóny jsou hlásky začínající a končící v polovině předcházející a následující hlásky (tj. hláska zakomponovaná do okolí).
  • Řečovou jednotkou rozumíme subslovní jednotky, což jsou hlásky zakomponované do okolí - tzv. difóny nebo trifóny.
  • Afázie je ztráta schopnosti produkovat nebo chápat jazyk. Nejčastější příčinou afázie je cévní mozková příhoda. V menší míře se na vzniku afázie může podílet i traumatický úraz hlavy či mozkový nádor.


Obecné schéma syntézy
Obecné schéma syntézy

Pokud si chcete poslechnout, jak vypadá aktuální česká syntéza řeči v textu, doporučuji si poslechnout tyto nahrávky:

Poslední verze syntézy naleznete zde.

Ukázka syntézy modelující i neřečové události je k dipozici zde

Další ukázky jsou zde. Audiovizuální syntéza

V případě, že máme připravenou jak vizuální syntézu, tak akustickou syntézu, můžeme se pustit do audiovizuální syntézy. Je to úplně poslední krok celého procesu. Dochází zde k synchronizaci akustické i vizuální stránky a vlastnímu vykreslování doprovázenému syntetizovanou řečí.

Celý proces tvorby audiovizuální syntézy je zjednodušeně shrnut na následujícím obrázku.

Proces audiovizuální syntézy řeči
Schéma procesu syntézy vizuální řeči

Na těchto stránkách  si můžete vygenerovat mluvicí hlavu s vlastním textem a stáhnout si ji do počítače. Jak lze mluvicí hlavu v reálu využít?

Mluvicí hlava na letišti

Největší uplatnění se zatím jeví jako pomůcka v prostředí, kde je špatně slyšet. Typickým příkladem jsou různá nádraží či letiště. Tam by hlášení mohla být doplněna vizuálním vjemem, při kterém by člověk lépe zachytil hlášení. Toto úzce souvisí i s aplikací pro sluchově postižené. Tam je idea umístění terminálů, na kterém by mluvicí hlava nedoslýchavým či sluchově postiženým zopakovala důležitá hlášení.

Další aplikací pro využití mluvicí hlavy je výuka sluchově postižených dětí či lidí, co ztratili řeč. Děti se zajímavou formou mohou učit odezírat a nemusí tolik spoléhat na znakovou řeč. Naopak lidé, co ztratili řeč (trpí tzv. afázií), si díky mluvicí hlavě mohou spojit slova s jejich artikulací.

Další skupinou využití jsou počítače. Mluvicí hlava vám může přečíst třeba webovou stránku nebo v budoucnu může personalizovat váš počítač jako v již zmiňovaném Červeném trpaslíkovi.

Pokud se chcete dozvědět více o mluvicí hlavě či o syntéze řeči, můžete využít následující odkazy:

Projekt Musslap

Syntéza řeči

Autor:
  • Nejčtenější

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 45 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

v diskusi je 30 příspěvků

13. dubna 2024

V dubnu 1924 zažilo americké námořnictvo obrovský skandál, který se dostal na titulní stránky...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

v diskusi je 17 příspěvků

15. dubna 2024

Položíte jej na polici před televizor, propojíte kabelem, zapojíte do zásuvky a během pár chvil se...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Dawesův plán na čas stabilizoval Německo, ale nástup Hitlera neodvrátil

v diskusi je 15 příspěvků

16. dubna 2024

Německá vláda přijala před 100 lety, v dubnu 1924, Dawesův plán. Byl to americký projekt na...

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

18. dubna 2024

V roce 2004 vstoupilo Lotyšsko do NATO, přesto nemůže nechat svou případnou obranu pouze na bedrech...

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

17. dubna 2024  15:12

Vědci z projektu Lassie, sponzorovaném americkou NASA, zdokonalují robotického psa pro použití při...

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

17. dubna 2024  11:50

Před několika týdny proběhla médii informace o varování německého Spolkového úřad pro civilní...

Náhle zemřel zpěvák Maxim Turbulenc Daniel Vali, bylo mu 53 let

Ve věku 53 let zemřel zpěvák skupiny Maxim Turbulenc Daniel Vali. Letos by se svou kapelou oslavil 30 let na scéně....

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Charlotte spí na Hlaváku mezi feťáky, dluží spoustě lidí, říká matka Štikové

Charlotte Štiková (27) před rokem oznámila, že zhubla šedesát kilo. Na aktuálních fotkách, které sdílela na Instagramu...

Vykrojené trikoty budí emoce. Olympijská kolekce Nike je prý sexistická

Velkou kritiku vyvolala kolekce, kterou pro olympijský tým amerických atletek navrhla značka Nike. Pozornost vzbudily...

Rohlík pro dítě, nákup do kočárku. Co v obchodě projde a kdy už hrozí právník?

V obchodech platí pravidla, která občas zákazník nedodržuje. Někdy se navoní parfémem, aniž by použil tester, nebo...