Rozpoznávání textu pomocí umělé inteligence Vicarious AI

Rozpoznávání textu pomocí umělé inteligence Vicarious AI | foto: Science/Vicarious AI, montáž: Pavel Kasík, Technet.cz

Jsi člověk, nebo počítač? Nová umělá inteligence rozpozná i zákeřný text

  • 28
Napodobení lidského mozku pomohlo americkým výzkumníkům naprogramovat nečekaně úspěšnou umělou inteligenci. Na rozdíl od člověka umí jen jednu věc, ale právě tu, která dosud člověka od počítače odlišovala.

Co dělá člověka člověkem? Filozofové, biologové nebo psychologové by na tuto složitou otázku určitě uměli odpovědět na tisíc způsobů. Ale na internetu se rozdíl mezi automatizovaným robotem a uživatelem z masa a kostí tradičně smrsknul na jednoduchou otázku: dokážeš přečíst rozcuchaný text? Pokud ano, jsi člověk, vstup povolen. Pokud ne, padej pryč, robote.

Potvrzení definitivního odstranění - je třeba zadat heslo a CAPTCHA kód.

Ukázka využítí kontroly na Facebooku - pro potvrzení je potřeba zadat heslo a ještě opsat zohýbaný text (tzv. CAPTCHA), aby se ověřilo, že akci vyžádal uživatel, nikoli robot

Napřed stačil prakticky jakýkoli text, a „člověčenství“ bylo ověřeno. Jenže on-line roboti, respektive pochopitelně ti, kteří je programují, postupně přicházeli s lepšími a lepšími způsoby, jak zabezpečovací kód - tzv. CAPTCHA  - obejít.

Programátoři zodpovědní za toto zabezpečení tak museli text zkreslovat stále více, až nakonec s jeho čitelností mají problémy i lidé. Naštěstí existují i alternativy, které po lidech opisování textu nevyžadují, ale textové ověřování zatím i nadále převládá.

Několik různých typů CAPTCHA obrázků. Počítače jsou v jejich řešení čím dál lepší, a tak se čitelnost snižuje a snižuje - i lidé mají s novými CAPTCHA obrázky problém.

Inspirován strukturou lidského mozku

Výzkumníci z kalifornské firmy Vicarious AI nyní ukázali nový způsob počítačového čtení znaků. Jejich neuronová síť, inspirovaná stavbou lidského mozku, dokázala číst zkreslený znak s 94% úspěšností.

To v praxi znamená, že počítač projde i ta nejsložitější textové CAPTCHA zabezpečení ve dvou případech ze tří. V minulosti přitom úspěšnost počítače už jen v řádu procent indikovala, že je takový systém zabezpečení děravý a zralý na výměnu. Za zmínku stojí i lidská (ne)úspěšnost vyplňování těchto CAPTCHA testů: lidé se netrefí v jednom ze čtyř pokusů, u některých složitých CAPTCHA je to ještě méně.

Princip rekurzivní kortikální sítě (Recursive Cortical Network - RCN) popsali výzkumníci v článku, který vyšel v prestižním vědeckém časopise Science (PDF). O firmě Vicarious a jejím předchozím úspěchu jsme psali již v roce 2013.

Struktura neuronové sítě inspirované lidským mozkem optimalizovaná pro rozpoznávání okrajů tvaru a identifikace tvaru (písmena) podle jeho charakteristických rysů.

Jedinečnost nového přístupu spočívá v tom, jak malý vzorek znaků měla „kortikální síť“ k dispozici pro své trénování. Obvykle se neuronové sítě učí na ohromném množství dat, třeba na milionech nebo miliardách příkladů. Naproti tomu nová RCN jen na několik stovkách.

„Předchozí modely vyžadovaly metodu hloubkového učení, ve které jsou neurony (jde o počítačem simulované neurony, tedy jakési rozhodovací uzly, pozn. red.) a programátor je trénuje k odpovědi podle zadání,“ vysvětlil Dileep George, spoluzakladatel laboratoře Vicarioius. „Mohli byste tak vytrénovat stroj k tomu, aby poznal písmeno A zkrátka tím, že mu ukážete stovky tisíců příkladů písmena A. Ale i pak by měla taková síť problém odlišit A od B třeba tam, kde se tato písmena překrývají způsobem, který tato neuronová síť nikdy předtím neviděla.“ 

Ukázky rozpoznávání deformovaných tvarů (zde písmeno A)

„Naopak dítě nepotřebuje vidět statisíce příkladů písmene A, aby se naučilo číst toto písmeno,“ říká George. Právě u toho, jakým způsobem vnímá vizuální informace lidský mozek, jeho tým začal. Jejich „kortikální síť“ si vytvořila vlastní „představy“ o tom, co dělá písmeno A písmenem A - tvary, obrysy, křivky.

Rozpoznávání textu v obrázku má několik kroků.
Ukázka rozpoznání tvarů ve zdrojových datech (zde reCAPTCHA) - na ukázce je...

Ukázka rozpoznání tvarů ve zdrojových datech (zde reCAPTCHA) - na ukázce je vidět, že umělá inteligence si vede přibližně stejně dobře, jako lidé.

„Naším dlouhodobým cílem je vytvořit umělou inteligenci, která funguje podobně jako lidský mozek,“ uvedl George. Jejich článek v Science ostatně naznačil, že síť RCN se zdá být použitelná i pro rozpoznávání objektů ve scéně, což je typický problém, který řeší firmy zabývající se strojovou analýzou obrazu. „CAPTCHA je jen přirozený způsob, jak si otestovat, co umíme. Je to test, který zjišťuje, zda náš program funguje podobně jako lidský mozek.“

Jejich algoritmus dokázal vyřešit CAPTCHA kódy s vysokou úspěšností: 66,6 % u reCAPTCHA, u BotDetectu 64,4 %, u Yahoo 57,4 % a u kódů PayPal dosáhl 57,1% úspěšnosti. To lze označit za začátek konce ověřování CAPTCHA. Jistě, je možné dodat do CAPTCHy novou složitost, ale vzhledem k tomu, jak se program Vicarious dokázal přizpůsobit různým způsobům zkreslování, šumu a pokřivování textu, lze předpokládat, že text, který by pro něj byl nečitelný, by činil nepřekonatelné problémy i lidem.