Profesionální hráč go Lee Sedol na tiskové konferenci po třetím zápase, a třetí...

Profesionální hráč go Lee Sedol na tiskové konferenci po třetím zápase, a třetí prohře s umělou inteligencí AlphaGo v březnu 2016. | foto: Lee Jin-man, AP

Počítač porazil člověka. Omlouvám se všem, kál se geniální hráč go

  • 144
Nejrychlejším možným způsobem, výsledkem 3:0 v sérii na tři vítězné zápasy, počítačový program AlphaGo porazil jednoho z nejlepších lidských hráčů ve hře go. Nepřehrál ho přitom hrubou výpočetní silou, protože go je na to příliš složité. Počítač hrál tak trochu intuitivně.

V jihokorejském Soulu v sobotu ráno našeho času se nečekaně rychle našel vítěz v zápase mezi umělou inteligencí AlphaGo a Jihokorejcem Lee Se-dolem, jedním z nejlepších hráčů go posledních desetiletí. Počítač ji po výkonech, které komentátory překvapily, vyhrál 3:0 (viz naše zprávy o prvním a druhém zápase).

Série se hrála na tři vítězné zápasy a o milion dolarů, které nakonec půjdou na dobročinnost. Tým společnosti DeepMind, která vítězný software vytvořila a patří do holdingu Alphabet (tj. de facto Google), už předem oznámila, že obnos v případě vítězství věnuje na charitu. Další dva zápasy se ale na žádost lidského soupře AlphaGo budou dohrávat. Lee Se-dol doufá, že když už nepůjde o výsledek, bude hrát uvolněněji a možná dokáže počítač porazit.

Hra go byla donedávna považována za lidskou doménu (viz třeba náš článek z roku 2008), alespoň na špičkové úrovni, protože je velmi komplikovaná. Herních možností je o mnoho řádů více než skýtají třeba šachy, a se současným hardwarem je není možné všechny v reálné době vyhodnotit.

Lee Sol (vpravo) právě položil na hrací plochu první kámen ve své první hře proti softwaru AlphaGo.

I proto řadu odborníků či hráčů go překvapilo, když v loňském roce nejprve Google oznámil, že jeho software dokázal porazit velmi dobrého amatérského hráče, a poté DeepMind (tj. společnost vlastněná Google, respektive Alphabet) dokonce zveřejnil záznam partie z října loňského roku, kdy jeho software porazil evropského šampióna v go, a to 3:0 v sérii hrané na tři vítězné zápasy. Komentátoři se nicméně shodli, že jeho schopnosti by zřejmě na úplnou špičkou nestačily (rozdíl mezi evropskými a asijskými hráči je totiž značný). Jak se ale ukázalo, AlphaGo se během dalších pěti měsíců dokázal výrazně zlepšit a v partii s Lee Se-dolem předvedl skvělé pasáže – a to jen díky tomu, že pět měsíců pilně trénoval a zlepšoval svoje schopnosti.

Jak popisuje letošní publikace týmu v časopise Nature, AlphaGo využívá propracovanou a podle všeho i účinnou kombinaci učenlivých algoritmů a běžného „silového“ vyhledávání nejlepší varianty. Jinými slovy, jeho „intuitivní“ obvody nejprve výběr zúží na ty možnosti, které se jim podle předchozích zkušeností (odehraných a rozebraných partií) zdají jako nadějné, a ty pak propočítá (podrobněji popisujeme jeho strukturu dále v článku).

Vítězství AlphaGo neznamená, že by umělá inteligence a počítače najednou dokázaly překonávat člověka hned v celé řadě dalších činností, kde hrubá výpočetní síla nestačí. Už proto, že použitá technologie není v principu nic nového. Jde o tzv. neuronové sítě, které jsou v principu i v praxi známé dlouhá desetiletí – jen díky pokroku v hardwaru (a částečně i softwaru) se jejich možnosti v posledních letech velmi rychle vylepšily.

Dobře ovšem ilustruje možnosti specializovaných umělých inteligencí, které se mohou v relativně krátké době vytrénovat na úroveň nejlepších lidí i v činnostech, u kterých byste to nepřepodkládali. Zřejmě tak není příliš vzdálená možnost, že specializovaný software třeba z pohledu na pacientův rentgen spolehlivě vyčte více než nejlepší lékař (to není náhodně vybraný příklad, ale intenzivně zkoumaný případ možného nasazení, kde už dílčí výsledky jsou k dispozici). Na rozdíl od lidí pak může podobný software pracovat v jednu chvíli na mnoha případech a místech světa.

Hlasy po utkání

Tisková konference po třetí hře proběhla za přítomnosti Sergeje Brinna, spoluzakladatele Googlu a nyní ředitele Alphabet (společnosti zastřešující Google a další firmy, včetně DeepMind). Brinn jako amatérský hráč go dokázal ocenit, jak náročná a komplexní hra to je. „Go je opravdu nádherná hra, která nás učí hodně o životě, více, než třeba šachy,“ řekl Brinn. „Jsem nadšený, že jste tuto krásu přenesli do našich počítačů.“

Pravidla Go

Go je hra s relativně jednoduchými pravidly, ve které náhoda nehraje žádnou roli. Hrací deska má rozměr 19×19 políček (ve skutečnosti průsečíku linií na ploše, ale to je vlastně jedno). Hráči mají kameny různé barvy, které střídavě mohou klást na libovolné volné hrací pole. Vždy začíná černý, a hráči se snaží zcela obklíčit soupeřovy kameny a zabránit mu v obklíčení svých vlastních. Hra končí ve chvíli, když se oba hráči vzdají tahu, a vyhrává zjednodušeně řečeno ten, kdo ovládne větší území (ve skutečnost je to složitější a skóre se může počítat různými způsoby podle různých pravidel).

Hráči Go se tedy snaží vytvořit souvislé bloky ze svých kamenů a zabránit v tomtéž soupeři. Zdá se to jednoduché, pro počítačovou analýzu je ale hra go nesmírně obtížná svým rozsahem.

„Byla velká čest utkat se s tak vynikajícím hráčem, jako je Lee Se-dol,“ řekl na tiskové konferenci Demis Hassabis, šéf firmy DeepMind. „Popravdě jsme sami překvapeni a sotva schopni slova. Byl to úchvatný zápas, Lee Se-dol byl obtížný soupeř. AlphaGo si vybudovalo významnou územní převahu na spodní části hrací plochy, ale pan Sedol našel kreativní způsoby, jak i na tomto území bojovat.“

Hassabis zdůraznil, že je úžasné, že Se-dol se dokáže postavit jen se svým vlastním mozkem ohromné výpočetní síle špičkových počítačů, které za sekundu propočítají desítky tisíc možných pozic.

„Se-dol donutil náš program AlphaGo hrát na plné obrátky, na hranici možností,“ dodal Hassabis. Pochválil i své programátory, kteří AlphaGo navrhli. „Ještě jsou před námi dva zápasy, takže na závěrečnou řeč je ještě brzy. Připomínám, že cílem tohoto zápasu od začátku bylo otestovat možnosti umělé inteligence a učit se od geniálního hráče. Doufáme, že v dlouhodobém časovém horizontu dokážeme tyto poznatky využít ke zdokonalení umělé inteligence a pomůžeme tak vyřešit některé problémy současnosti.“

"Omlouvám se, vím, že jsem mnoho lidí zklamal. Měl jsem hrát lépe.

Lee Sedol, profesionální hráč go (9 danů)

Do objektivů kamer a blikajících blesků se pak podíval i Lee Se-dol. Jeho projev byl klidný a nepostrádal humorné momenty: „Nevím, jak začít. Napřed bych se chtěl omluvit - měl jsem hrát lépe. Vím, že jsem mnoho lidí zklamal. Cítil jsem se tak trochu bezmocný.“

V prvním zápase prý Se-dol podcenil schopnosti AlphaGo: „I kdybych se teď vrátil v čase doprostřed té první hry, nevím, jak bych ten zápas mohl vyhrát.“ Druhá hra se vyvíjela více podle Se-dolových představ: „Měl jsem hodně příležitostí, ne všechny jsem bohužel využil.“

Třetí hra byla pro Se-dola výjimečná: „Go hraji již opravdu dlouho, ale ještě nikdy jsem necítil takový tlak. Nedokázal jsem si poradit s nervozitou, které jsem byl vystaven,“ řekl člověk, který vlastně reprezentoval lidské hráče ve hře s počítačem. „Nyní je jasné, kdo vyhrál. I tak ale sledujte i další dvě hry, ve kterých zdánlivě o nic nejde. Lidské bytosti jsou přeci jen vystavené psychice.“

Ke hře se vyjádřil i komentátor Michael Redmond: „Jestli někdo pochyboval o schopnostech AlphaGo, tak po těchto třech hrách už je přesvědčen. Se-dol ve třetí hře ukázal silnou, aktivní hru, jakou jsme od něj čekali. Myslím, že jakýkoli jiný člověk by jej jen těžko porazil. Myslím, že udělal to nejlepší, co mohl. AlphaGo ale dokázalo Se-dola porazit v jeho vlastní hře.“

„V historii hry go jsme svědky celé řady významných objevů,“ řekl Redmond. Jmenoval významné postavy, které zcela změnily nahlížení na tuto hru a ukázali nový směr otevírání hry i hraní samotného. „U AlphaGo vidím velký potenciál být ještě silnějším hráčem, než nyní je, zvlášť když se bude dál učit ze svých vlastních siulovaných her. Myslím, že AlphaGo může inspirovat hráče ke studiu úplně nového stylu hraní. Čeká nás možná třetí revoluce v go, a AlphaGo nám pomůže ji odstrartovat. Proto chci poděkovat týmu AlphaGo za to, že vytvořili to, co nemůžu nazvat jinak než uměleckým dílem.“

Proč jsme si mysleli, že v go nás nedostanou

Důvody, které činí go tak obtížně řešitelnou při použití silových výpočetních postupů, jsme shrnovali v našem článku při příležitosti publikace výsledků hry AlphaGo s evropským šampiónem Fan Huiem, připomeňme si je v mírně zkrácené podobě:

Hrubou silou se s dnešní technologií hra go vyřešit nedá, protože na začátku hry je k dispozici 361 možností, jak zahrát a po pěti kolech může být hrací plocha uspořádána do celkem zhruba pět bilionů (5×1012) možných konfigurací. Pro srovnání, šachovnice může po deseti tazích (po pěti každého hráče) uspořádána „jen“ necelými pěti miliony způsobů. Rozdíl tří řádů se pak rychle zvětšuje, a v go je celkem k dispozici více než 10170 různých konfigurací kamenů na desce. To je o mnoho řádů více možností, než kolik by dnešní počítače mohly v nějaké smysluplné době projít - více, než kolik je podle dnešních odhadů atomů ve vesmíru.

Slibně vypadaly algoritmy, které umožňují zúžit výběr místa pro optimální položení kamene. Postupně se pak podařilo vytvořit programy, které dokázaly s poměrně velkou pravděpodobností předpovědět, kam zkušený lidský hráč pokládá své kameny. Přesnost jejich předpovědi nebyla ohromující, trefili se ve zhruba 40 procentech případů. Tým DeepMind tuto přesnost vylepšil na zhruba 55 procent. Důležitější ale byla kombinace této „konvoluční sítě“ se „stromovým prohledáváním“ ve výsledné AlphaGo.

Hlavním nástrojem vývojářů byly tzv. hluboké neuronové sítě. Neuronové sítě jsou systémy umělé inteligence založené na principech odkoukaných od mozku. Tvoří je celá řada „neuronů“ propojených za sebou i mezi sebou, které se (hodně zjednodušeně řečeno) postupně samy i s pomocí programátorů učí ze vstupních dat dojít ke správnému výsledku. Postupně se tak „ladí“, trénují a vylepšují, a zvládají úkoly, které jiným typů algoritmů dělaly velké problémy: třeba rozpoznávání obličejů atp. Hluboké neuronové sítě se od běžných neuronových sítí liší hlavně tím, že mají více vrstev. V případě AlphaGo běží výpočet ve 13 vrstvách nad sebou najednou.

Software Googlu je složen z kombinace neuronových sítí a prohledávání stromu možných tahů. Jsou zde dvě hlavní neuronové sítě, každá má jinou úlohu. První bychom mohli nazvat jako „strategickou“ (autoři ji nazvali policy network), protože provádí jakýsi předvýběr vhodných vhodných možností pro další tah (viz výše). Druhá je síť „hodnotící“ (value network) a hodnotí pozice jako dobré nebo špatné. „Tím snižuje hloubku prohledávaného stromu,“ vysvětluje Josef Moudřík, doktorand na MFF UK a člen České asociace go.

Jak AlphaGo vybírá, jaký tah udělá: nejprvě posoudí, jaké možnosti má a který tah má nejvyšší šanci, že přispěje k vítězství, posuzuje také krátkodobý a dlouhodobý dopad. V tomto případě AlphaGo zvolilo tah indikovaný červeně na posledním schématu. Fan Hui odpověděl položením kamene nad kámen AlphaGo. Po zápase ale řekl, že měl táhnout spíše na pole označené číslem 1 (což byla předpověď AlphaGo).

Neuronové sítě zúží výběr natolik, aby druhá část AlphaGo - stromové prohledávání - mohla vybrat optimální možnost právě z těch předvybraných. Nemusí tak propočítávat ověřovat stovky možných tahů, ale třeba jen čtyři neuronovou sítí nejdoporučovanější. Právě tato kombinace posunula AlphaGo na špičku současných počítačových hráčů go. „Navíc to mají dobře naprogramováno, takže se jim daří zvyšovat výkon přidáváním hardware, což není samozřejmé,“ připomíná Moudřík. „Při distribuované hře tak AlphaGo běží na 1200 procesorech a 180 grafických kartách, což je bezprecedentní.“

Aktualizace: V článku jsme opravili název společnosti Alphabet a doplnili detaily týkající se zápasů a následných komentářů.

,