VIDEO: Počítače nám vzaly i řeč. Umí mluvit čínsky naším hlasem

  • 6
Vývojová divize Microsoftu předvedla systém, který převádí mluvená slova z jedné řeči do druhé a přitom zachová charakteristiky vašeho hlasu. Zatím však není jasné, kdy a zda vůbec bude i v našich počítačích.

Poslední dny nebyly k Microsoftu zrovna přívětivé. Pomalý rozjezd Windows 8 a podle všeho nepříliš zářné prodejů tabletů Surface následoval rychlý odchod šéfa divize Windows.

Mezi nepříliš pozitivní zprávami zanikla zajímavá novinka, kterou firma představila už na konci října v Číně. Rick Rashid z vývojové divize Microsoft Research promluvil 25. října k profesorům a studentům univerzity ve městě Tchien-ťin. Mluvil na ně anglicky, ale publikum slyšelo jeho hlas v čínštině. Jak je vidět z přiloženého videa, program se dokonce snaží napodobit hlas mluvčího (celou přednášku můžete shlédnout zde).

Výsledek nebyl rozhodně dokonalý, to pozná i neškolené ucho, ale zřejmě přesvědčivý. Každou z osmi vět, kterou Rashid pronesl, tak diváci ocenili aplausem. Systémy na převod lidského hlasu do počítačového samozřejmě již známe, Microsoft v tomto oboru rozhodně není sám. Převod hlasu samotného mluvčího by mohl tento oboru posunout znovu o významný kousek dál.

Nejde jenom o pouhé kopírování, jak jsme psali v našem předchozím článku založeném na prvních informacích o systému. Stejně jako lidé by měl například měnit výslovnost některých hlásek podle kontextu. 

Základ softwaru pod "hlasovým modulem" tvoří statistický model rozpoznávání řeči, založený na překladači Microsoftu Bing Translator. Jeho filozofie je podobná jako u Google Translate a konečně i hlasových asistentů typu Siri, je tedy založena na analýze milionů a miliard výrazů a vět. Silové řešení pomocí rozboru mnoha údajů se osvědčilo lépe než jiné přístupy a dnes se používá nejvíce.

Výsledky dnes nejsou samozřejmě dokonalé. Špatně může být i klidně každé čtvrté nebo páté slovo, jak je vidět v některých chvílích i na přepisu videa, který běží na plátně nad Rashidem.

Ale zpět k imitaci hlasu. Je založena na modelu "učenlivého systému" (přesněji na modelu tzv. neuronové sítě), která se na základě zpětné vazby postupně učí napodobit váš hlas. Nejde to úplně snadno, Rashid údajně potřeboval zhruba hodinu čistého času, aby dosáhl prezentovaného výsledku.

Podle Microsoftu by přizpůsobení počítačového hlasu mělo zlepšit porozumění a není důvod o tom pochybovat. Strojové hlasy jsou hůře srozumitelné než lidské. Jaké jsou však další plány s vývojem této technologie, není úplně jasné. Podle všeho jde stále o vývojový projekt, který má k reálnému nasazení stále poměrně daleko.