Poslanci budou mít v televizi titulky. V reálném čase je vytvoří počítač

Česká televize připravuje od jara příštího roku unikátní službu. Využije systémy na rozpoznávání řeči, aby v reálném čase připravily titulky k vysílanému pořadu. Nejprve budou titulkovány vstupy z parlamentu a postupně se bude služba rozšiřovat.

Nejen neslyšící potěší testování rozpoznávání řeči v České televizi

Vyzkoušeli jste si někdy ovládat třeba váš mobilní telefon pomocí hlasových příkazů? Pak asi víte, že ne vše vždy funguje, tak jak má. A to se jedná pouze o jednotlivá slova. Teď si představte, jak složitý musí být systém, který má zvládnout bezproblémový převod mluvené řeči do textu.

Projekt titulkování v reálném čase probíhá v Česku ve spolupráci s katedrou kybernetiky Západočeské univerzity. Například v USA jsou běžně titulkovány (nikoliv však plně automaticky) reklamní bloky, filmy, ale i talk show. U nás se zatím počítá pouze s přenosy z parlamentu. Později by měly přijít na řadu i sportovní přenosy. Nejen, že pořady s titulky mohou snáze sledovat i někteří neslyšící, ale jsou i vynikající pomůckou při samostudiu daného jazyka. 

Jak celé rozpoznávání probíhá

Aby program na rozpoznávání mohl úspěšně rozpoznávat, je třeba ho pečlivě “natrénovat“. Nejprve se musí provést předzpracování cvičných dat. To zahrnuje anotaci zvukového záznamu a později zpracování anotovaného textu. V případě záznamu z parlamentu je třeba například zpracovat stenografický zápis pro účely tvorby jazykového modelu.

Poté je třeba speciálními programy vytvořit akustický a jazykový model. Tyto modely se dále implementují do tzv. dekodéru. Dekodér je speciální program, který je třeba dále trénovat a nastavovat parametry. Výstupem jsou pak trigramové nebo bigramové modely jazyka určené pro rozpoznávání. Trigramový/bigramový model znamená, že titulky jsou dle spočítané pravděpodobnosti v jazykovém modelu zobrazované a upravované ve trojicích/dvojicích.

Proč je rozpoznávání řeči tak složité?

Slovník 50 000 nejfrekventovanějších slov pokrývá v češtině 90,5 %, v angličtině dokonce 99.3 %.

Slovník 300 000 nejfrekventovanějších slov pokrývá zhruba 97.6 % češtiny. U anglického jazyka je to dokonce 100 %.

Pro pokrytí téměř 100 % českého textu je potřeba slovník 1 500 000 nejfrekventovanějších slov.

Tuto velikost slovníku nutného pro pokrytí českého textu způsobuje obrovské množství ohebných tvarů českých slov. Potencionálně lze od jednoho slovesa odvodit až 300 tvarů, pro podstatné jméno 20 tvarů a pro přídavné jméno 200 tvarů.


Titulky v České televizi

Veřejnoprávní televize má ze zákona povinnost titulkovat 70 % vysílaných pořadů. Nejjednodušší způsob je samozřejmě pořady otitulkovat před odvysíláním. To však jde pouze u pořadů, které nejsou vysílány živě.

Tak také vznikají titulky pro sluchově postižené spoluobčany, tzv. skryté titulky, které lze vyvolat na teletextu ČT.

Vše funguje tak, že si určená osoba poslechne záznam a přepíše veškerou mluvenou řeč do titulků. Ty se pak časově sesynchronizují a nakonec odvysílají s daným pořadem v televizi. Problém nastává u živých pořadů, jako jsou sportovní přenosy, přenosy z tiskových konferencí, z parlamentu a mnohé další. V podstatě jediným řešením by bylo najmout stenografy, kteří by pořady téměř reálně otitulkovali. Problémem je jejich nedostatek a cena jejich práce.

Z těchto důvodů se přistoupilo k vývoji počítačového programu pro tvorbu automatických titulků. Věc však není tak jednoduchá. Rozpoznávání řeči, tak aby bylo alespoň trošku úspěšné, je vázáno na mnoho podpůrných faktorů. V místnosti, kde se řečník nachází, musí být ticho, řečník by měl být v klidu a nejlépe by měl daný text číst. To při sportovních událostech není možné. Zhruba před pěti lety v britské BBC kvůli těmto problémům přistoupili na projekt se stínovým řečníkem. To je člověk, který v klidu přemlouvá původního řečníka. Je to taková obdoba tlumočení z češtiny do češtiny.

Spolupráce s vysokou školou

Na katedře kybernetiky ZČU se zkouší oba přístupy – přímé rozpoznávání a rozpoznávání u stínového řečníka. Úspěšnost automatického titulkování hokejového zápasu je při přímém rozpoznávání 75 % a při přemlouvání stínovým řečníkem přes 90 %. Česká televize rovněž testuje automatické titulkování přenosů z parlamentu, kde úspěšnost je 85 % při přímém rozpoznávání. Rozdíl je dán klidem řečníků, relativním tichem a téměř čteným projevem.

Testovací provoz

Úspěšnost v případě parlamentního záznamu zhruba 85 %. Z tohoto důvodu bude první reálně nasazené automatické titulkování právě na parlamentním záznamu. V České televizi bude probíhat zkušební provoz od jara 2008. Cílem je otestování systému sluchově postiženými.

Katedra kybernetiky chystá i automatické titulkování pro další živé pořady a zkouší nové přístupy. Například hokejové záznamy se budou přemlouvat stínovým řečníkem. Dalším chystaným projektem je automatické titulkování znakovou řečí. Limitujícím faktorem pro všechny tyto úlohy je rozsáhlost českého jazyka a výkonnost počítačů. Jak to v reálu vypadá se můžete podívat na těchto stránkách.

 

Poznámka:

Pod pojmem anotace zvukového záznamu se rozumí přepsání záznamu do textu speciálním programem. Je třeba přesně „říci“ počítači, kde se například komentátor nadechl, kde předal slovo někomu jinému, kde byl velký hluk a podobně. Všechny tyto mimoslovní záznamy se označují speciálními slovy. Například DRUM označuje hluk bubínku v publiku. Zároveň je třeba u cizích slov označit i přesnou výslovnost například New {nů } York{jork}.


Autorka je studentkou katedry kybernetiky Západočeské univerzity.


Autor:
  • Nejčtenější

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

v diskusi je 125 příspěvků

26. března 2024

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo...

Z jaderné triády zbyly Britům už jen ponorky. A ty musejí posílit

v diskusi je 76 příspěvků

27. března 2024

Jadernou triádu tvoří strategické bombardéry s jadernými zbraněmi, mezikontinentální balistické...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Hlučínsko patří nám. Před 100 lety byl podepsán definitivní protokol o hranici

v diskusi je 44 příspěvků

28. března 2024

Před 100 lety definitivně skončily tahanice o československo-německé hranice. 28. března 1924 byl...

Rusko zastavilo odlet na ISS s první Běloruskou, letět měla i Američanka

v diskusi je 50 příspěvků

21. března 2024  10:23,  aktualizováno  14:26

Ve čtvrtek 21. března se necelých deset minut před půl třetí odpoledne měla vydat na Mezinárodní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Američané odepsali modul, který je vrátil po půl století na Měsíc

v diskusi je 20 příspěvků

28. března 2024,  aktualizováno  11:41

Od začátku letošního roku je na Měsíci a kolem něj poměrně rušno. Vedle řady sond, které zamířily...

Za vyhynutím dinosaurům mohla být i doba temna

v diskusi nejsou příspěvky

29. března 2024

Dopad planetky je nyní většinou odborníků považován za hlavní příčinu vyhynutí zhruba 73 až 76 %...

Podívejte se na Boeing C-17 Globemaster, který do Česka přivezl nové vrtulníky

v diskusi je 1 příspěvek

29. března 2024

V sobotu 23. března dosedl v Praze nákladní letoun USAF, který vezl obzvlášť cenný náklad. Z...

Dočasná raketa se po téměř 70 letech loučí. Bude startovat naposledy

v diskusi jsou 4 příspěvky

28. března 2024  15:36,  aktualizováno  19:54

Tento čtvrtek stojí na startovací rampě mysu Canaveral poslední potomek raket Thor, nosič Delta IV...

Američané odepsali modul, který je vrátil po půl století na Měsíc

v diskusi je 20 příspěvků

28. března 2024,  aktualizováno  11:41

Od začátku letošního roku je na Měsíci a kolem něj poměrně rušno. Vedle řady sond, které zamířily...

Šárka Hamrusová: Díky laktační poradkyni jsem si přestala myslet, že je chyba ve mně
Šárka Hamrusová: Díky laktační poradkyni jsem si přestala myslet, že je chyba ve mně

Šárka chtěla kojit. Chvíli to ale vypadalo, že se jí to nepodaří. Díky správně zvolené laktační poradkyni nakonec dosáhla úspěchu. Poslechněte si...

Smoljak nechtěl Sobotu v Jáchymovi. Zničil jsi nám film, řekl mu

Příběh naivního vesnického mladíka Františka, který získá v Praze díky kondiciogramu nejen pracovní místo, ale i...

Rejžo, jdu do naha! Balzerová vzpomínala na nahou scénu v Zlatých úhořích

Eliška Balzerová (74) v 7 pádech Honzy Dědka přiznala, že dodnes neví, ve který den se narodila. Kromě toho, že...

Pliveme vám do piva. Centrum Málagy zaplavily nenávistné vzkazy turistům

Mezi turisticky oblíbené destinace se dlouhá léta řadí i španělská Málaga. Přístavní město na jihu země láká na...

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo divadelních...

Stále víc hráčů dobrovolně opouští Survivor. Je znamením doby zhýčkanost?

Letošní ročník reality show Survivor je zatím nejkritizovanějším v celé historii soutěže. Může za to fakt, že už...