Naučte počítač číst! Zabere vám to jen pár sekund denně...

Naučte počítač číst! Zabere vám to jen pár sekund denně... | foto: Profimedia.cz

Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

  • 14
Studenti americké univerzity vyvíjí systém, který naučí počítače číst a umožní preciznější digitalizaci knih. Využívají k tomu obyčejný filtr proti nevyžádané poště.

Na Carnegie Mellon University pracují studenti na systému, který bude využívat webového antispamového filtru CAPTCHA k učení OCR (Optical Text Recognition - automatické rozpoznávání psaného textu) systému. Uživatelé diskuzních fór, e-mailových schránek apod. tak úplně mimochodem naučí počítače "číst". Celý systém následně umožní preciznější digitalizaci knih.

Systém CAPTCHA by se mohl v brzké době změnit na reCAPTCHA a kromě odfiltrování spamu a "obtěžování" uživatelů zadáváním nesmyslných údajů, by navíc ohl sloužit užitečné věci.

Řekni mi, co čteš, a já ti povím, jestli jsi stroj

S nástrojem CAPTCHA se pravděpodobně denně setkáváme. Jedná se o celkem účinný způsob, jak rozpoznat, zda u počítače sedí člověk, či zda se jedná o automatizovaný program ("bot"). Zkratka CAPTCHA zastupuje poněkud rozsáhlé spojení "Completely Automated Public Turing test to tell Computers and Humans Apart", tedy zcela automatizovaný test na odlišení lišení lidí a počítačů. Jinak řečeno: je to program, který generuje takový test, jaký by sám vyřešit nedokázal ("Takže vidíte, že je vlastně jako někteří profesoři," vtipkuje Louse Von Ahn z Carnegie Mellon University).

Ukázka: CAPTCHA na seznam.cz

Samozřejmě, jak už to nejen ve světě technologií chodí, CAPTCHA se nestala řešením otázky spamerů, spíše výzvou pro spamery. A její první typy brzy podlehly botům (stačí úspěšnost v řádu procent a počítačový program zavalí web falešnými požadavky, narozdíl od člověka jich totiž zvládne tisíce za minutu). CAPTCHA se tak stávaly složitější a tím pádem i méně snesitelné. A také je to prý obrovské plýtvání.

Počítač: Tohle nemůžu přečíst

Denně je celosvětově vyplněno více než 60 milionů takovýchto testů. To znamená 150 tisíc člověkohodin zcela proplýtvaných. Právě to by se mělo změnit. Výsledky lidského vstupu do CAPTCHA se použijí při digitalizaci knih v rámci projektu Internet Archive. OCR má totiž při scanování starých knih často velké problémy.

reCAPTHCA - ukázka

Internet Archive chce zachovat co nejvíce informací a zpřístupnit je veřejnosti na internetu. Kromě knih a filmů také provozuje WayBack Machine, umožňující jakési cesty časem, více v našem článku "Jak se dostat ke stránkám...".

Člověk: Ukaž, já ti pomůžu

Nový systém reCAPTHCA bude vedle sebe dávat spolu s vygenerovanými slovy (tedy znaky, které systém bude schopen ověřit) také slova, která se nepovedlo přečíst při digitalizaci knih systémem OCR. Pokud budou ověřitelné znaky zadané správně, systém si do databáze uloží příslušné slovo, které se mu nepovedlo přečíst, a poučí se ze své chyby.

Každé slovo se objeví více uživatelům zcela nezávisle, aby se vyloučily omyly. Když si uvědomíme, jak obrovskou základnu (ne)dobrovolných učitelů tenle systém má, dá se předpokládat, že může být úspěšný.

Zatím není jasné, kde všude bude reCAPTCHA implementována. Vyzkoušet si ji můžete na oficiálních stránkách projektu.reCAPTHCA - ukázka

Takže až budete zase někdy vyplňovat CAPTCHA, může vás při luštění písmenek hřát vědomí, že nejenže zrovna děláte něco, co zatím počítač neumí, ale ještě tím pomáháte převádět knihy do digitální podoby.

Odkazy: