CAPTCHA. Jednoduchý prostředek, jak poznat na internetu člověka od stroje.

CAPTCHA. Jednoduchý prostředek, jak poznat na internetu člověka od stroje. | foto: CAPTCHA.com

Malá firma tvrdí, že počítače dokážou prolomit kód CAPTCHA

  • 41
Malá americká firma Vicarious oznámila, že vyvinula program, který spolehlivě dokáže rozluštit kód, který se na internetu používá k rozlišení strojů od lidí. Jde o známý systém CAPTCHA, tedy opis špatně čitelných znaků. Software podle autorů představuje důležitý pokrok pro umělou inteligenci vůbec.

Uživatelé z celého světa dnes ztratí vyplňováním bezpečnostního kódu známého jako CAPTCHA zhruba 150 tisíc hodin každý den. Odhad je to jen velmi přibližný, vytvořili ho před několika lety sami autoři názvu CAPTCHA, ale nepochybné je, že podivné klikyháky luští z obrazovky čas od času každý.

Co je CAPTCHA?

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) je automatizovaný test, který slouží k odlišení člověka od stroje. Obvykle se tak děje na základě lidské schopnosti rozpoznat i silně zkreslený text, což činí problém i nejlepším čtecím programům (OCR).

CAPTCHA se používá kdekoli, kde hrozí automatizovaný a hromadný vstup od robotů (botů), kteří šíří nevyžádané zprávy, nebo zahlcují stránky svými požadavky.

Dnes se často můžete setkat s její variantou nazvanou reCAPTCHA, což  je snaha proměnit jinak celkem otravnou záležitost v užitečnou službu. V reCAPTCHA ověření musíte opsat hned dvě slova (obvykle anglická, smysluplná). Jedno z nich umí počítač přečíst a na jeho základě ověří, zda jste lidé. Druhé slovo počítač vezme z databáze slov, které nedokázal rozpoznat při automatizované digitalizaci knihoven. To musíte přepsat také a tím ho počítači ozřejmíte. Svým malým příspěvkem tak vlastně pomáháte digitalizovat knihy do prohledatelné, čitelné databáze.

reCAPTCHA dnes provozuje společnost Google a s její pomocí digitalizuje archiv New York Times. Zobrazuje prý cca 100 milionů log denně. Archív NYT by měl být celý "přečtený" do konce roku 2013.

CAPTCHA ani její varianty nejsou přes svůj úspěch neprůstřelné. Na této stránce najdete seznam desítek způsobů, jak se ji podařilo obejít.

Když vědci z Pittsburghu roce 2000 název CAPTCHA vytvořili, předpokládalo se, že bude sloužit jako jednoduchý test pro rozlišení člověka od počítače. V různých variantách ho dnes používají například e-mailové služby nebo sociální sítě.

Nejjednoduší způsob, jak systém CAPTCHA prolomit, je najmout si na to člověka. Na internetu jsou snadno k sehnání stránky služeb, které nabízí prolomení v podstatě libovolného množství CAPTCHA kódů za malé peníze, už od jednoho dolaru za tisíc obrázků.

Stojí za nimi desítky, stovky, někdy možná i tisíce lidí u počítačů v rozvojových zemích. Ti za pro nás nepředstavitelně malé peníze věnují každému kódu několik vteřin svého času. Provozovatelé se jen starají o to, aby se práce distribuovala rychle a účinně, takže vyřízení objednávek trvá jen pár desítek sekund. Jaké to je, být odběratelem této podivné služby, si můžete v angličtině přečíst například zde.

Jak dlouho tato podivná forma zaměstnanosti ještě bude existovat? Začínající firma Vicarious oznámila, že se jí podařilo vyvinout algoritmus, který systém CAPTCHA dokáže prakticky naprosto spolehlivě prolomit. Software má uspět v devíti případech z deseti (což je dost možná lepší než u řady z nás).

Zbytečně dobrý

Z hlediska prolomení bezpečnosti systému CAPTCHA je 90procentní úspěšnost v podstatě až zbytečně vysoká. Vzhledem k tomu, jak počítače fungují, by stačila i jednoprocentní úspěšnost. Strojového času je dost a je dost levný, téměř určitě levnější než lidští "roboti" pracující za pár dolarů denně.

Úspěch je zajímavější pro vývoj na poli umělé inteligence. Luštění CAPTCHA je složitá úloha na poli rozeznávání obrazu. V podstatě jde o jednoduchou verzi tzv. Turingova testu, ve kterém počítač musí prokázat stejné schopnosti jako člověk. Pokud byste seděli někde na druhém konci zeměkoule, neměli byste nejmenší šanci poznat, že CAPTCHA nevyplnil člověk.

Rozeznávání tvarů je jeden z obtížných problémů v problematice umělé inteligence a jeho aplikace by byly mnohem širší. Dnes mohou specializované algoritmy číst například značky vozidel na mýtných branách (ne v ČR), ale tento algoritmus by jim měl umožnit identifikovat předměty, které "viděly" jen párkrát, a pohybovat se tak například plynule v neznámém prostředí.

Jeden ze zakladatelů Vicarious Scott Phoenix pro Science řekl, že závěrečnou zkouškou schopností jejich algoritmu by mělo být, že jím vybavený robot uvaří zadané jídlo v kuchyni, ve které nikdy předtím nebyl. Pak by ho mohli začít prodávat především právě pro použití v robotice. Nebude to brzy, "umělou inteligenci" prý chce firma představit za zhruba 15 let.

Vedlo se i před novinářem

Jsou to neskromné cíle, dosavadní výsledky ovšem nevypadají špatně. Když John Bohannon ze Science napsal do firmy skeptický e-mail, firma mu uspořádala prezentaci přes Skype, ve které si program vedl dobře, i když ne tak dobře, jak by se mohlo zdát z tiskové zprávy. Velmi rychle vyřešil dva CAPTCHA kódy náhodně stažené z internetu. Jeden byl za stránek platební služby PayPal, druhá reCAPTCHA od firmy Google (mimochodem aktualizovaná právě před několika dny tak, aby byla pro roboty náročnější).

Na druhou stranu neuspěl v případě CAPTCHA se znaky z azbuky a nerozluštil ani kód, ve kterém byla písmena na černobílé šachovnici. Podle autorů nejde v zásadě o neřešitelný problém. Jednoduše jejich program zatím není naučený nic jiného než latinku. V případě šachovnice by bylo možné před něj ještě nasadit "filtr", který mu umožní číst i černobílá písmena.

CAPTCHA kódy, se kterými se pogram firmy Vicarious potýkal před redaktorem časopisu Science. První dva prý rozluštil během několika sekund, spodní dva vůbec. Prý zatím neumí nic než latinku a byl nevhodně nastavený i pro čtení písmen s různými barvami. Obojí prý lze snadno napravit, tvrdí firma.

I když prezentace skeptického novináře hodně zviklala, k obezřetnosti velí fakt, že nevíme, jak to firma udělala. Pracují v ní sice vědci z renomovaných amerických univerzit, ale úspěch oznámila jen prostá tisková zpráva na stránkách Vicarious. Podle serveru Science se skupina zatím nechystá napsat ani vědeckou práci, která by úspěch popsala přesněji. Za prvé by je to prý stálo příliš mnoho času a také nechtějí navádět spammery.

Zatím se musíme spokojit s vágním sdělením, že používá nápodoby našich smyslů, respektive nervů na nich napojených. V podstatě se tedy skládá z jednoduchých prvků, které dělají jednoduché úkony (je/není tu černý pixel), a to na několika úrovních. Výsledkem je poměrně složitá síť s několika miliony prvků, která nakonec na základě shody "odhadne", co vlastně na obrazovce je.

Ale to mnoho neřekne. Podobný přístup není zdaleka nový, tzv. neuronové sítě jsou naopak jeden z nejstarších vážně míněných přístupů k vytvoření umělé inteligence. Důležité by byly jiné údaje, ty ovšem firma nezveřejnila.

V tuto chvíli nelze říct, zda se kalifornské skupině podařilo tuto snahu skutečně posunout na novou úroveň. Jeden z autorů termínu CAPTCHA, Luis von Ahn z Pittsburghu, byl například pro časopis Forbes skeptický. Podle něj se CAPTCHA může snadno změnit, například přestává být postupně založená na textu a bude spíše obrázková. "Garantuji vám, že tu nezvládnou, protože to by znamenalo na poli zpracování obrazu veliký průlom," řekl Ahn. Vicarious naproti tomu tvrdí, že jejich program zvládne i obrázkovou CAPTCHA v různých podmínkách (s barvami, ve 3D, s různým světlem atd.).

Takže zřejmě uvidíme až v roce 2028. Do té doby se "lamači" z rozvojových zemí zřejmě nemusí o zakázky bát. Těžko říct, jestli to pro ně je dobrá zpráva; podobná automatizace lidského mozku není nic, na co by jejich zaměstnavatelé i zákazníci mohli být hrdí.