Sportovní články už mohou psát roboti. Dokážou to lépe než lidé

Počítačový program dokáže okomentovat sportovní zápas, popsat všechny důležité okamžiky i zhodnotit výsledek. A někdy to umí lépe než lidé. Mohli se o tom přesvědčit čtenáři univerzitního serveru GWSports.com.

ilustrační foto

Během univerzitního baseballového zápasu se nadhazovači W. Robertsovi podařila nevídaná věc. Stal se prvním, komu se po téměř deseti letech podařilo zahrát takzvanou perfect game. To je podobně vzácná událost, jako kdyby Kometa Brno vyhrála ligu. Čtenáři univerzitního serveru GWSports.com se však z článku o zápasu o úspěchu mladého nadhazovače nedozvěděli. 

Co je to perfect game

Perfektní hra (perfect game) je hra, ve které nadhazovač (nebo více nadhazovačů téhož mužstva) má v nejméně devíti směnách vždy úspěšné nadhozy a žádný soupeř nedosáhne mety. 

Je to podobné jako takzvaný kanár v tenise, kdy soupeř neuhraje ani bod.

Na internetu se objevily spekulace, že právě tento článek byl psán "robotem" a nikoliv člověkem. Jedině robot totiž mohl vynechat tak důležitou událost z textu. Automatické systémy pro psaní sportovních článků se v USA používají již rok.

Vydavatel webu ovšem přiznal, že text psal nezkušený novinář, který dostatečně neznal pravidla ani historii baseballu a události si nevšiml. Tvůrci "robotů novinářů" z firmy Narrative Science pojali celou událost jako výzvu a zadali data ze zápasu do programu. Vznikl bezchybný text, kde je výjimečná událost správně zmíněna ihned v úvodu.

Pokud by vás to zajímalo, zápas Virginia vs. George Washington skončil 2:0 i díky Robertsově perfect game. Robotem psaný text si můžete přečíst zde (pouze v angličtině).

Stačí statistika

Počítač potřebuje k napsání sportovního článku statistická data (kdo, kdy a kolik). Stejně by v budoucnu podle serveru Thenextweb.com mohly vznikat například články s informacemi z finančních trhů. Podle výrobce může počítač psát i analýzy trhu s nemovitostmi. 

Velkou výhodou robotického novináře je, že se na rozdíl od člověka nesplete. O možnostech softwaru, který automaticky přetvoří nezáživná data na čtivý článek, se začalo mluvit přibližně před rokem. Právě tehdy vznikly dva projekty StatSheet a StatsMonkey, které již nevyužívají služeb novinářů. Sportovní články o baseballu generují během několika málo sekund ze statistických dat dané hry.

Systém Stats Monkey používá dvě technologie. První je založena na statistickém modelu hry (v tomto případě baseballu), podle které počítač pozná, co se ve hře stalo zajímavého. Analýzou pravděpodobnosti výhry daného mužstva a podle předchozích výsledků dokáže například pochválit klíčové hráče (a samozřejmě zaznamenat takovou událost, jakou je perfect game).

Součástí programu je knihovna vypravěčských výrazů (typických pro daný sport), kterým dokonale popíše průběh zápasu. Počítač si všimne i takových nuancí jako neočekávané vítězství týmu, u kterého by to nikdo netipoval, neobvykle dramatické hry, atd. 

Článek může být podle přání napsán z pohledu jakéhokoliv týmu (např. týmu České republiky) a jednoduše lze předem určit i jeho délku.

Program lze podle výrobce využít pro jakýkoliv sport nebo odvětví, které poskytne dostatečné množství relevantních dat. Samozřejmě, že těžko okomentuje výkon rozhodčího nebo třeba gólové šance a sporné momenty hry. Nutno také podotknout, že styl sportovních článků a přístup sportovních komentátorů je v USA velmi odlišný od českého.

Počítač vygeneruje i vědecky znějící články

Na "píšící počítače" jsme se zeptali Jana Kleindiensta, vedoucího R&D Labu společnosti IBM. Právě firma IBM nedávno představila nejinteligentnější počítač na světě. Watson, jak se stroj jmenuje, dokázal dokonce porazit člověka ve vědomostní hře typu Riskuj. Více v tomto článku.

Superpočítač porazil člověka

a chce být superdoktorem.

Je složité, aby se počítač naučil psát na základě statistických dat například články o fotbale?

Záleží na složitosti domény (daného sportu), množství dostupných dat, použité metodě a hloubce zkušeností tvůrců systému. Obecně jde o úlohu zvanou "natural language generation" (NLG), která se dá řešit jednodušeji či složitěji. V triviálním případě použitím ručně psaných pravidel pro generování textu (tzv. gramatik), ve složitějším provedení statistickým modelem natrénovaným z velkého vzorku dat. Například systém univerzity MIT v Bostonu umí vygenerovat vědecky znějící článek tak, že některá dílka byla dokonce omylem přijata na odborné konference.

Jaká data bude počítač vždy potřebovat, aby článek mohl vzniknout?

Je potřeba definovat a modelovat jak vnitřní počítačovou reprezentaci dat (vstup), tak její mapování na psaný přirozený jazyk (výstup) pro požadovanou doménu (fotbal, burza, počasí) a pro příslušný jazyk. První typ dat jsou obvykle znalostní báze nebo logické formy, v druhém případě jde o příklady vět z přirozeného jazyka, které korespondují s příklady ze znalostní báze. A to v závislosti na formě, stylu a jazykové aktuálnosti požadované pro daný článek. Pro statistické modelování platí zlaté pravidlo: čím více dat, tím lépe pro výsledný efekt.

Jak moc musí být daný algoritmus přizpůsoben pro daný obor? Jinými slovy, dokázal by stroj na fotbal psát články o tenise nebo finančních trzích?

Při podobnosti domén (sportů, oborů, atd.) lze část modelu či trénovacích dat použít pro společné jádro systému (sport) a pak specializovat jednotlivé moduly (fotbal, hokej, tenis) natrénované ze specifických dat. Pro obory, které mají od sebe dál, se obvykle buduje každý systém samostatně, i když se v závěru mohou pro uživatele tvářit jako jednotný systém.

Má v sobě takový algoritmus například Watson? Dokázal by psát Watson
články?

Watson je primárně postavený pro opačnou (a obvykle těžší) úlohu, tedy porozumění přirozenému jazyku "natural language understanding" (NLU) a hledání relevantních odpovědí na otázky "question answering" (QA). Nicméně obsahuje i moduly na generování jazyka pro potřeby aplikací, ve kterých je používán tak, aby sděloval svá zjištění uživatelům v přirozené řeči. Psaní článků zatím nebylo na seznamu .

Zřejmě bude jednodušší celý algoritmus připravit pro angličtinu než pro
češtinu? O kolik? A je podle vás možné v dohledné době očekávat takový česky píšící stroj?

Z hlediska variability je čeština samozřejmě složitější než angličtina, nicméně principy modelování načrtnuté výše zůstávají stejné. Takovýto systém obvykle najde z laboratoří cestu ven v okamžiku, kdy se objeví výrazný zájem na trhu. To platí i pro české prostředí.

Autor:
  • Nejčtenější

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

v diskusi je 125 příspěvků

26. března 2024

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo...

Z jaderné triády zbyly Britům už jen ponorky. A ty musejí posílit

v diskusi je 76 příspěvků

27. března 2024

Jadernou triádu tvoří strategické bombardéry s jadernými zbraněmi, mezikontinentální balistické...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Rusko zastavilo odlet na ISS s první Běloruskou, letět měla i Američanka

v diskusi je 50 příspěvků

21. března 2024  10:23,  aktualizováno  14:26

Ve čtvrtek 21. března se necelých deset minut před půl třetí odpoledne měla vydat na Mezinárodní...

Hlučínsko patří nám. Před 100 lety byl podepsán definitivní protokol o hranici

v diskusi je 17 příspěvků

28. března 2024

Před 100 lety definitivně skončily tahanice o československo-německé hranice. 28. března 1924 byl...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Načapali jsme otesánka, který se velkého sousta nezalekne. Boeing 747-400F

v diskusi je 8 příspěvků

21. března 2024

Poté, co na Letiště Václava Havla Praha přestaly v barvách Qatar Airways létat nákladní Boeingy...

Američané odepsali modul, který je vrátil po půl století na Měsíc

v diskusi je 15 příspěvků

28. března 2024,  aktualizováno  11:41

Od začátku letošního roku je na Měsíci a kolem něj poměrně rušno. Vedle řady sond, které zamířily...

Hlučínsko patří nám. Před 100 lety byl podepsán definitivní protokol o hranici

v diskusi je 17 příspěvků

28. března 2024

Před 100 lety definitivně skončily tahanice o československo-německé hranice. 28. března 1924 byl...

Úspěšný let prototypu XB-1 vrací do hry cestování nadzvukovou rychlostí

v diskusi je 31 příspěvků

27. března 2024  17:17

Po více než dvaceti letech, od ukončení provozu letounu Concorde, se možná opět dočkáme nadzvukové...

Jarní bouře ničila před 100 lety Prahu. Napáchala obří škody

v diskusi je 10 příspěvků

27. března 2024

Prahou prošla před 100 lety, 27. března 1924, neobvykle silná jarní bouřka. V části hlavního města...

Akční letáky
Akční letáky

Všechny akční letáky na jednom místě!

Rána pro britskou monarchii. Princezna Kate má rakovinu, chodí na chemoterapii

Britská princezna z Walesu Kate (42) se léčí s rakovinou. Oznámila to sama ve videu na sociálních sítích poté, co se...

Smoljak nechtěl Sobotu v Jáchymovi. Zničil jsi nám film, řekl mu

Příběh naivního vesnického mladíka Františka, který získá v Praze díky kondiciogramu nejen pracovní místo, ale i...

Rejžo, jdu do naha! Balzerová vzpomínala na nahou scénu v Zlatých úhořích

Eliška Balzerová (74) v 7 pádech Honzy Dědka přiznala, že dodnes neví, ve který den se narodila. Kromě toho, že...

Pliveme vám do piva. Centrum Málagy zaplavily nenávistné vzkazy turistům

Mezi turisticky oblíbené destinace se dlouhá léta řadí i španělská Málaga. Přístavní město na jihu země láká na...

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo divadelních...