Robot hrající karty - ilustrační obrázek

Robot hrající karty - ilustrační obrázek | foto: Profimedia.cz

Superpočítač se naučil „dokonale“ hrát poker. Ukáže nám, jak blafovat?

  • 47
Výzkumníci naučili počítač hrát poker tak dobře, že je dlouhodobě prakticky neporazitelný. Jedna z jednodušších variant pokeru, je tímto „slabě vyřešena“. Program Cepheus ideální strategii vypiloval hraním více než trilionu pokerových partií. Mohlo by to změnit pohled právníků na poker.

Albertská univerzita v Kanadě má tým vědců, kteří spojili svého koníčka s akademickou kariérou. Dnes jedenáctičlenná skupina CPRG se už dvacet let zabývá počítačovou simulací, analýzou a řešením karetní hry poker. Proč? Na rozdíl od šachů nebo dámy je totiž poker „hra s neúplnou informací“, a naučit počítač rozhodovat se v situaci, kde nejsou k dispozici všechny informace, je důležité pro rozhodování v reálných situacích. „A nezastíráme, že hlavním popudem bylo i to, že nás to zkrátka baví,“ poznamenal Michael Bowling, který skupinu pokerem fascinovaných výzkumníků vede.

„Skutečný život není jako šachy. Blafujeme, taktizujeme, podvádíme, spekulujeme, co si myslí ostatní. A v tom spočívá moje teorie her.“

John von Neumann, matematik

Nejnovější studie Bowlingova týmu, publikovaná v prestižním časopise Science, přinesla dílčí úspěch. Jeden z typů pokeru, konkrétně Heads-up Limit Hold’em Texas Poker, se jim podařilo „slabě vyřešit“. Znamená to, že počítač Cepheus sestavil strategii, která je natolik blízká dokonalosti, že ani za 70 let nepřetržitého hraní by nebyl poražen hypotetickým hráčem, který nedělá naprosto žádné chyby.

Strategie v první části hry není až tak složitá - ve většině případů počítač radí nepokládat hned na začátku. Máte dvě karty, pravá horní polovina čtverce ukazuje pravděpodobnosti pro případ, že mají stejnou barvu. Zelené políčko radí přihodit, modré dorovnat, červené položit. Jde o smíšené pravděpodobnosti - není jediná správná možnost.

Aby se k této „téměř dokonalé strategii“ Cepheus probojoval, musel analyzovat 3,19×1014 situací ve hře, kdy se musí rozhodnout na základě neúplných informací (neví totiž, jaké karty má soupeř nebo jaké karty přijdou z balíčku). I proto zvolili výzkumníci tuto jednodušší variantu pokeru, která má jen dva hráče a omezené sázky. Po 900 letech procesorového času počítač, respektive superpočítač, odehrál trilion (1018, tedy miliardu miliard) simulovaných partií, tedy více než kdy odehráli lidé. Desítky počítačů koordinovaně pracovaly na různých částech stejného problému. Nekomprimovaný výsledek propočtů by zabral 262 terabytů, po kompresi se experti vešli pod 17 TB. Výsledek tohoto snažení si můžete sami vyzkoušet, strategie Cepheus je k dispozici on-line.

Dámu mají počítače „vyřešenou“, s pokerem je to složitější

Počítače hrají lidské hry už od 70. let. Pro programátory je to nejen vítané zpestření, ale také jednoduchá možnost otestovat postupy použitelné i ve složitějších situacích. V řadě her už lidé počítačovým algoritmům podlehli. Mediálně známé je třeba šachové utkání velmistra Garriho Kasparova s počítačem Deep Blue společnosti IBM v roce 1997 nebo vítězství počítače Watson nad rekordmany vědomostní soutěže Jeopardy!

Poker a zákon velkých čísel

Protože v pokeru si nemůžete být jisti výsledkem, mohlo by se zdát, že jde o hru náhody. A v jednotlivých hrách tomu tak skutečně je.

Ale protože se nikdy nehraje jen jedna hra, ale mnoho desítek či stovek her, je možné vyhrát, pokud počítáte lépe než soupeř.

Příklad: Máte dvě srdcové karty a na stole jsou mezi otočenými kartami další dvě srdce, můžete si spočítat, jaká je šance, že poslední karta bude také srdce a vám přijde „flush“. Řekněme, že je to 20% šance. Zdá se to málo, ale to neznamená, že musíte položit karty. Musíte vzít v úvahu, kolik sázkou získáte v případě výhry a kolik ztratíte v případě prohry (tzv. „pot odds“). Pokud jsou v banku dva tisíce korun, můžete si dovolit ztratit klidně i 300 korun na riskantní sázku. Kdybyste totiž takovouto situaci opakovali tisíckrát, budete se sázkou celkově v plusu, i když vyhrajete jen v pětině případů. Hráči tomu říkají „play the odds“.

Aby ovšem hra byla „vyřešená“ z pohledu teorie her a umělé inteligence, nestačí k tomu pouhá porážka člověka počítačem, ani kdyby šlo o mistra světa. Počítačový program musí prokázat, že je neporazitelný, ať by proti němu soupeř hrál jakkoli. Ukázkou je program Chinook, který po téměř dvaceti letech usilovného propočítávání všech variant vyladil dokonalou strategii pro hru Dáma. Nikdy neprohraje, vždy dokáže uhrát remízu.

Ale na rozdíl od dámy je poker hra, kde nemá hráč k dispozici všechny informace. Vidí jen svoje karty a otočené karty na stole. Neví naopak, jaké karty má soupeř a jaké karty ještě přijdou. Musí se proto připravit na různé eventuality, spočítat jejich pravděpodobnosti a počítat také s různými reakcemi soupeře. Požadavky na výpočetní výkon tím neuvěřitelně narůstají.

Náročnost her s neúplnou informací, které se podařilo vyřešit. HULHE zkracuje Heads Up Limit Hold’em, který „v podstatě vyřešil“ (essentially weakly solved) tým z Alberty.

Au, to pálí! Počítač se učí, jak minimalizovat svou lítost

Algoritmus, který Bowlingův tým zvolil pro kalkulaci této varianty pokeru, je známý jako „Counterfactual Regret Minimization“ (CFR) a spočívá v testování různých strategií a zaznamenávání informací o tom, kterých rozhodnutí počítač „lituje“. Metoda se snaží přiblížit bodu Nashovy rovnováhy (Nash equilibrium), tedy ke strategii, která již nelze vylepšit.

Jak by se počítač vypořádal se zjednodušeným pokerem (Kuhnův poker, známý též jako „AKQ game“), kde jsou jen tři karty a dva hráči? Takovou jednoduchou hru lze zcela spočítat, a proto není těžké navrhnout dokonalou strategii.

Bowlingovi a jeho týmu se podařilo chytrou kompresí a zobecněním symetrií některých rozhodovacích „větví“ snížit počet variant více než dvacetkrát, což také snížilo čas nutný k propočítání možností a formulaci výsledné strategie.

Záleží na tom, co umíte, nebo je poker hazardní hra?

O důležitosti náhody/umění v pokeru se vedou debaty nejen akademické. V sázce je totiž například legalizace pokerových heren. Každý, kdo hrál poker, ví, že ve hře hrají roli přinejmenším tři prvky: náhoda, čtení ostatních hráčů a matematika, respektive schopnost počítat pravděpodobnosti. Otázkou je, který z těchto prvků hraje prim. A neptají se jen hráči, ale také zákonodárci.

Studie pro i proti

  • Kvazi-experimentální studie ukázala, že hráči, kteří měli s pokerem zkušenosti, neměli takovou výhodu jako hráči, kterým výzkumníci namíchali lepší karty.
  • Studie představující „neporazitelný počítačový algoritmus“ ovšem ukazuje, že na schopnostech záleží, jinak by taková strategie nemohla existovat.

Pokud hraje hlavní roli náhoda, byl by poker hazardní hrou jako třeba ruleta. Ať se snažíte sebevíc a máte jakýkoliv rozpočet, kasino vždycky v dlouhodobém horizontu vyhraje. To lze dokázat jak simulací, tak matematickou úvahou. Proto je on-line ruleta v řadě zemí zakázaná.

Poker byl některými soudy uznán jako sport, ve kterém se lze zlepšovat. Jiné soudy (včetně českého) jej považují za hazardní hru, kde hlavní roli hraje náhoda. Potíž je zejména v tom, že poker vyžaduje jiný typ schopností, než je u sportu běžné. Zvažování pravděpodobností a kalkulace rizik v dlouhodobém horizontu není nic intuitivního, právě naopak.

Pete Etchells, redaktor deníku The Guardian, připomíná, že samotná existence programu Cepheus ukazuje na důležitost „dovednosti, nikoli náhody“. Pokud by šlo jen o náhodu, nebylo by možné sestavit strategii, která dlouhodobě vyhrává. To však neznamená, že by pro mnoho lidí poker nebyl hazardní hrou. Zvláště u nižších sázek se lidé obvykle „vůbec nestarají o matematiku a pravděpodobnost, prostě přihazují, dokud to jde. Pak se na ně vztahují stejné negativní efekty jako na gamblery.“

Zjednodušeně tedy můžeme říci, že poker je dovednostní hra pro ty, kteří ji umí hrát a počítají pravděpodobnosti. Ti, kteří ji hrají podle intuice, hrají „jiný“ poker, založený na štěstí, a jsou náchylní k tomu, aby je schopnější hráči obrali. „Máme takové pořekadlo,“ řekl nám Ted Whiting z kasina Aria v Las Vegas. „Jak vyhrát v pokeru? Je to jednoduché. Sedněte si ke stolu, postupně posuďte všechny ostatní hráče a najděte jednoho naivního idiota. Toho idiota postupně oberte o všechny jeho peníze. Pokud toho idiota nemůžete najít, koukejte se zvedat, jste to totiž nejspíš vy!“

Dokonalá hra? Možná, ale „jen“ z pohledu statistiky

Výzkumníci z Alberty věří, že jejich strategie je „v podstatě neporazitelná“, což znamená, že kdyby někdo proti algoritmu Cepheus hrál 70 let, 12 hodin denně, 200 her za hodinu a nedopustil by se jediné chyby, ani tehdy by nešlo jeho hru statisticky spolehlivě odlišit od „téměř dokonalé“ hry počítače.

Pokerová studie a její vědci

Podle některých kritiků chybí ovšem algoritmu schopnost adaptovat se na protihráče. „Zahrál jsem si proti tomuto ‚neporazitelnému‘ automatu asi 400 her a všiml jsem si několika pochybných tahů,“ píše třeba sportovní kritik Guardianu Christopher Bell. „Pokud chtějí výzkumníci skutečně ověřit, že je algoritmus neporazitelný, měli by vyzvat nejlepší světové hráče. Nadšení fanoušci pokeru, jako jsem já, by takovou událost jistě uvítali.“

To, co označují vědci dokonalou hrou, skutečně není totéž, co pod tímto termínem vidí hráči pokeru. Lukáš Horák, pokerový kouč z PokerArena.cz, to vysvětluje jako daň za univerzálnost neporazitelné strategie: „Cepheus svoji strategii staví tak, aby obstála proti libovolnému soupeři. Tím má zajištěno, že porazí jakéhokoliv soupeře. Ale když bude hrát se slabším soupeřem, tak sice vyhraje, ale nedokáže vyhrát tolik peněz, kolik by ve stejné situaci vyhrál zkušený profesionál.“

Počítač potvrdil intuici hráčů. A také je naučí lépe blafovat

Profesionálové se shodují, že dopad nové studie na běžnou hru není takový, jak by mohly napovídat senzacechtivé titulky typu „Vědci vyřešili poker“. Především si vědci zvolili variantu hry, která je méně náročná na výpočetní výkon. „Zdaleka nejčastější varianta pokeru je dnes No Limit Hold’em, kde jsou sázky bez limitu a navíc se většinou hraje ve více než dvou hráčích,“ připomíná Horák. Na jejím řešení tým z Alberty také pracuje, ale výpočetně je to neskonale náročnější.

Je samozřejmě možné „vyřešenou“ variantu hry hrát on-line a používat interaktivní tabulky ze stránek Cepheus jako tahák. „Potřebovali by k tomu i generátor náhodných čísel,“ doplňuje Horák. Cepheus totiž jen radí, v jakém poměru má hráč střídat tahy (přihodit, dorovnat, položit).

Na webu se můžete počítače Cepheus zeptat, jak byste měli hrát v konkrétním případě. Naklikat můžete jednotlivé sázky i karty, které máte v ruce a které jsou na stole. Vpravo vidíte, z čeho jsou doporučení složená - každý řádek tabulky ukazuje výsledky pro jednotlivé kombinace soupeřových karet.

I když se Cepheus zabýval ne zrovna populární variantou pokeru, lze se z jeho poznatků poučit i v běžné hře. „Hlavní lekce pro hráče no-limit holdemu je množství smíšených strategií v preflop hře,“ myslí si Petr Jelínek, profesionální kouč pokeru působící na PokerArena.cz. „Jejich samotná existence ovšem není nic nového. Preflop tabulka bude v No-limit Hold’emu samozřejmě vypadat trochu odlišně, ale téměř jistě bude i ona obsahovat velké množství smíšených strategií, mnohem větší, než si většina hráčů připouští.“ (Preflop hra označuje část hry před otočením karet na stole, hráč se tedy rozhoduje jen na základě svých dvou karet, které vidí. pozn. red.)

Jak jsem vydělal na pokeru a stal se radši prognostikem

Populární americký statistik Nate Silver popisuje své zkušenosti s pokerem v knize Signál a šum.

Poker zažil na začátku 21. století ohromný rozmach, který je základem jeho dnešní popularity. Na začátku byla on-line herna, do které (virtuálně) jako začátečník zasedl ve stejné době i statistik Nate Silver, jehož později proslavila úspěšná prognóza výsledku amerických voleb. „O prvních 25 dolarů jsem celkem rychle přišel,“ píše Silver ve své knize Signál a šum. Ale díky statistickému vzdělání uspěl: „Konto se mi začalo rozrůstat, nejdřív o 50 nebo 100 dolarů za večer, pak někdy i o 500 nebo 1 000.“

Nakonec pokerem vydělal podle svých slov asi 400 tisíc dolarů, ale hry nechal. Sám říká, že nikdy nepatřil mezi špičkové hráče a s tím, jak se konkurence zlepšovala a kavky (či chcete-li fishky)odcházely z heren, byla pro něj hra stále obtížnější. Ze své pokerové epizody, kvůli které opustil „vzrušující svět mezinárodního daňového poradenství“, si však odnesl zážitky a zkušenosti, které mu  umožňují přesněji popsat, kde lidé dělají nejčastěji chyby v odhadování pravděpodobnosti.

Problém v učení se od počítače spočívá v tom, že Cepheus není pedagog. „Když pokerový kouč učí svého studenta, snaží se mu situaci nějak lidsky vysvětlit. Třeba: V této situaci bych měl karty zahodit, přestože jsou dobré. Soupeř totiž bude mít příliš často ještě lepší, protože ... , vysvětluje Horák. „Člověk se prostě snaží nějak pojmenovat důvody, proč jistou situaci zahrál tak, jak ji zahrál. Ale program takhle nefunguje. Program mi řekne: Zahoď karty, protože jsem to vypočítal.“

Propočítaná strategie navíc může podle Horáka lidské profesionály poučit v tom, jak často se během hry hodí blafovat, neboli „balancovat hru“. „Většina lidí si myslí, že poker je celý o blafech, kamenných tvářích a psychologii. To všechno má svůj význam, hlavně u živého pokeru, ale ještě důležitější je matematika,“ připomíná Horák. Cepheus zkrátka vyzkoušel miliardy alternativ, a má tedy ve hře Heads Up Limit Hold’em zjištěno, jaká je optimální frekvence blafu (či jakékoli jiné akce) pro tu kterou situaci.

V jistém smyslu je tato studie jen dalším pokračováním trendu vývoje pokeru, nastartovaného v 90. letech. Dávno před tím, než přišel Cepheus, byl internet plný tabulek, které pomáhají spočítat pravděpodobnost výhry pro konkrétní kombinaci karet a hráčů. Změnil se styl hry, změnil se typ lidí, které hra zajímá všímá si Robert Krulovich z NPR: „Ze hry texaských kovbojů, kteří hráli podle své intuice, se stala hra, kterou ovládli geekové.“

Poznatky získané při tréninku programu Cepheus chtějí vědci uplatnit nejen při svých dalších pokusech o pokoření dalších a složitějších typů pokeru, ale také při zdokonalování rozhodovacích systémů, které musí pracovat s neúplnými informacemi. Přestože je Cepheus vysoce specializovaný program, některé z fíglů by se podle Bowlinga daly využít i pro robustní rozhodování, například v medicíně či ve financích: „Ve skutečném životě panuje nejistota a téměř vždycky chybí informace,“ připomíná von Neumannův citát. „Algoritmy, které se s tím vypořádají, mají budoucnost.“