ilustrační foto

ilustrační foto

Sportovní články už mohou psát roboti. Dokážou to lépe než lidé

  • 96
Počítačový program dokáže okomentovat sportovní zápas, popsat všechny důležité okamžiky i zhodnotit výsledek. A někdy to umí lépe než lidé. Mohli se o tom přesvědčit čtenáři univerzitního serveru GWSports.com.

Během univerzitního baseballového zápasu se nadhazovači W. Robertsovi podařila nevídaná věc. Stal se prvním, komu se po téměř deseti letech podařilo zahrát takzvanou perfect game. To je podobně vzácná událost, jako kdyby Kometa Brno vyhrála ligu. Čtenáři univerzitního serveru GWSports.com se však z článku o zápasu o úspěchu mladého nadhazovače nedozvěděli. 

Co je to perfect game

Perfektní hra (perfect game) je hra, ve které nadhazovač (nebo více nadhazovačů téhož mužstva) má v nejméně devíti směnách vždy úspěšné nadhozy a žádný soupeř nedosáhne mety. 

Je to podobné jako takzvaný kanár v tenise, kdy soupeř neuhraje ani bod.

Na internetu se objevily spekulace, že právě tento článek byl psán "robotem" a nikoliv člověkem. Jedině robot totiž mohl vynechat tak důležitou událost z textu. Automatické systémy pro psaní sportovních článků se v USA používají již rok.

Vydavatel webu ovšem přiznal, že text psal nezkušený novinář, který dostatečně neznal pravidla ani historii baseballu a události si nevšiml. Tvůrci "robotů novinářů" z firmy Narrative Science pojali celou událost jako výzvu a zadali data ze zápasu do programu. Vznikl bezchybný text, kde je výjimečná událost správně zmíněna ihned v úvodu.

Pokud by vás to zajímalo, zápas Virginia vs. George Washington skončil 2:0 i díky Robertsově perfect game. Robotem psaný text si můžete přečíst zde (pouze v angličtině).

Stačí statistika

Počítač potřebuje k napsání sportovního článku statistická data (kdo, kdy a kolik). Stejně by v budoucnu podle serveru Thenextweb.com mohly vznikat například články s informacemi z finančních trhů. Podle výrobce může počítač psát i analýzy trhu s nemovitostmi. 

Velkou výhodou robotického novináře je, že se na rozdíl od člověka nesplete. O možnostech softwaru, který automaticky přetvoří nezáživná data na čtivý článek, se začalo mluvit přibližně před rokem. Právě tehdy vznikly dva projekty StatSheet a StatsMonkey, které již nevyužívají služeb novinářů. Sportovní články o baseballu generují během několika málo sekund ze statistických dat dané hry.

Systém Stats Monkey používá dvě technologie. První je založena na statistickém modelu hry (v tomto případě baseballu), podle které počítač pozná, co se ve hře stalo zajímavého. Analýzou pravděpodobnosti výhry daného mužstva a podle předchozích výsledků dokáže například pochválit klíčové hráče (a samozřejmě zaznamenat takovou událost, jakou je perfect game).

Součástí programu je knihovna vypravěčských výrazů (typických pro daný sport), kterým dokonale popíše průběh zápasu. Počítač si všimne i takových nuancí jako neočekávané vítězství týmu, u kterého by to nikdo netipoval, neobvykle dramatické hry, atd. 

Článek může být podle přání napsán z pohledu jakéhokoliv týmu (např. týmu České republiky) a jednoduše lze předem určit i jeho délku.

Program lze podle výrobce využít pro jakýkoliv sport nebo odvětví, které poskytne dostatečné množství relevantních dat. Samozřejmě, že těžko okomentuje výkon rozhodčího nebo třeba gólové šance a sporné momenty hry. Nutno také podotknout, že styl sportovních článků a přístup sportovních komentátorů je v USA velmi odlišný od českého.

Počítač vygeneruje i vědecky znějící články

Na "píšící počítače" jsme se zeptali Jana Kleindiensta, vedoucího R&D Labu společnosti IBM. Právě firma IBM nedávno představila nejinteligentnější počítač na světě. Watson, jak se stroj jmenuje, dokázal dokonce porazit člověka ve vědomostní hře typu Riskuj. Více v tomto článku.

Superpočítač porazil člověka

a chce být superdoktorem.

Je složité, aby se počítač naučil psát na základě statistických dat například články o fotbale?

Záleží na složitosti domény (daného sportu), množství dostupných dat, použité metodě a hloubce zkušeností tvůrců systému. Obecně jde o úlohu zvanou "natural language generation" (NLG), která se dá řešit jednodušeji či složitěji. V triviálním případě použitím ručně psaných pravidel pro generování textu (tzv. gramatik), ve složitějším provedení statistickým modelem natrénovaným z velkého vzorku dat. Například systém univerzity MIT v Bostonu umí vygenerovat vědecky znějící článek tak, že některá dílka byla dokonce omylem přijata na odborné konference.

Jaká data bude počítač vždy potřebovat, aby článek mohl vzniknout?

Je potřeba definovat a modelovat jak vnitřní počítačovou reprezentaci dat (vstup), tak její mapování na psaný přirozený jazyk (výstup) pro požadovanou doménu (fotbal, burza, počasí) a pro příslušný jazyk. První typ dat jsou obvykle znalostní báze nebo logické formy, v druhém případě jde o příklady vět z přirozeného jazyka, které korespondují s příklady ze znalostní báze. A to v závislosti na formě, stylu a jazykové aktuálnosti požadované pro daný článek. Pro statistické modelování platí zlaté pravidlo: čím více dat, tím lépe pro výsledný efekt.

Jak moc musí být daný algoritmus přizpůsoben pro daný obor? Jinými slovy, dokázal by stroj na fotbal psát články o tenise nebo finančních trzích?

Při podobnosti domén (sportů, oborů, atd.) lze část modelu či trénovacích dat použít pro společné jádro systému (sport) a pak specializovat jednotlivé moduly (fotbal, hokej, tenis) natrénované ze specifických dat. Pro obory, které mají od sebe dál, se obvykle buduje každý systém samostatně, i když se v závěru mohou pro uživatele tvářit jako jednotný systém.

Má v sobě takový algoritmus například Watson? Dokázal by psát Watson
články?

Watson je primárně postavený pro opačnou (a obvykle těžší) úlohu, tedy porozumění přirozenému jazyku "natural language understanding" (NLU) a hledání relevantních odpovědí na otázky "question answering" (QA). Nicméně obsahuje i moduly na generování jazyka pro potřeby aplikací, ve kterých je používán tak, aby sděloval svá zjištění uživatelům v přirozené řeči. Psaní článků zatím nebylo na seznamu .

Zřejmě bude jednodušší celý algoritmus připravit pro angličtinu než pro
češtinu? O kolik? A je podle vás možné v dohledné době očekávat takový česky píšící stroj?

Z hlediska variability je čeština samozřejmě složitější než angličtina, nicméně principy modelování načrtnuté výše zůstávají stejné. Takovýto systém obvykle najde z laboratoří cestu ven v okamžiku, kdy se objeví výrazný zájem na trhu. To platí i pro české prostředí.