Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

pondělí 28. května 2007
14

Studenti americké univerzity vyvíjí systém, který naučí počítače číst a umožní preciznější digitalizaci knih. Využívají k tomu obyčejný filtr proti nevyžádané poště.

Na Carnegie Mellon University pracují studenti na systému, který bude využívat webového antispamového filtru CAPTCHA k učení OCR (Optical Text Recognition - automatické rozpoznávání psaného textu) systému. Uživatelé diskuzních fór, e-mailových schránek apod. tak úplně mimochodem naučí počítače "číst". Celý systém následně umožní preciznější digitalizaci knih.

Systém CAPTCHA by se mohl v brzké době změnit na reCAPTCHA a kromě odfiltrování spamu a "obtěžování" uživatelů zadáváním nesmyslných údajů, by navíc ohl sloužit užitečné věci.

Řekni mi, co čteš, a já ti povím, jestli jsi stroj

S nástrojem CAPTCHA se pravděpodobně denně setkáváme. Jedná se o celkem účinný způsob, jak rozpoznat, zda u počítače sedí člověk, či zda se jedná o automatizovaný program ("bot"). Zkratka CAPTCHA zastupuje poněkud rozsáhlé spojení "Completely Automated Public Turing test to tell Computers and Humans Apart", tedy zcela automatizovaný test na odlišení lišení lidí a počítačů. Jinak řečeno: je to program, který generuje takový test, jaký by sám vyřešit nedokázal ("Takže vidíte, že je vlastně jako někteří profesoři," vtipkuje Louse Von Ahn z Carnegie Mellon University).

Samozřejmě, jak už to nejen ve světě technologií chodí, CAPTCHA se nestala řešením otázky spamerů, spíše výzvou pro spamery. A její první typy brzy podlehly botům (stačí úspěšnost v řádu procent a počítačový program zavalí web falešnými požadavky, narozdíl od člověka jich totiž zvládne tisíce za minutu). CAPTCHA se tak stávaly složitější a tím pádem i méně snesitelné. A také je to prý obrovské plýtvání.

Počítač: Tohle nemůžu přečíst

Denně je celosvětově vyplněno více než 60 milionů takovýchto testů. To znamená 150 tisíc člověkohodin zcela proplýtvaných. Právě to by se mělo změnit. Výsledky lidského vstupu do CAPTCHA se použijí při digitalizaci knih v rámci projektu Internet Archive. OCR má totiž při scanování starých knih často velké problémy.

Internet Archive chce zachovat co nejvíce informací a zpřístupnit je veřejnosti na internetu. Kromě knih a filmů také provozuje WayBack Machine, umožňující jakési cesty časem, více v našem článku "Jak se dostat ke stránkám...".

Člověk: Ukaž, já ti pomůžu

Nový systém reCAPTHCA bude vedle sebe dávat spolu s vygenerovanými slovy (tedy znaky, které systém bude schopen ověřit) také slova, která se nepovedlo přečíst při digitalizaci knih systémem OCR. Pokud budou ověřitelné znaky zadané správně, systém si do databáze uloží příslušné slovo, které se mu nepovedlo přečíst, a poučí se ze své chyby.

Každé slovo se objeví více uživatelům zcela nezávisle, aby se vyloučily omyly. Když si uvědomíme, jak obrovskou základnu (ne)dobrovolných učitelů tenle systém má, dá se předpokládat, že může být úspěšný.

Zatím není jasné, kde všude bude reCAPTCHA implementována. Vyzkoušet si ji můžete na oficiálních stránkách projektu. reCAPTHCA - ukázka

Takže až budete zase někdy vyplňovat CAPTCHA, může vás při luštění písmenek hřát vědomí, že nejenže zrovna děláte něco, co zatím počítač neumí, ale ještě tím pomáháte převádět knihy do digitální podoby.

Odkazy:

Více o systému reCAPTCHA (anglicky)
Antispam Word Jumbles to Help Digitize Books (anglicky)
Podrobné video vysvětlující fenomén CAPTCHA a jeho aplikace (anglicky, 51 min, Google Video)

Pavel KasíkPavel Kasíkhttps://www.idnes.cz/novinari/pavel-kasik.N527

Doporučujeme

Copilot od Microsoftu nabízí zdarma mnoho schopností placeného ChatGPT

Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

{NADPIS reklamního článku dlouhý přes dva řádky}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

{NADPIS reklamního článku dlouhý přes dva řádky}

Před 100 lety padl světový rekord v délce letu vrtulníkem

{NADPIS reklamního článku dlouhý přes dva řádky}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

Čínské automobilky skladují přebytky z výroby v evropských přístavech

Embéčko, fordy i porsche. Auta, která na poslední chvíli měnila jméno

Chystáte se sázet brambory? Zkuste to letos nastojato

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Špargl jako lahůdka i afrodiziakum. Vše, co jste o něm chtěli vědět

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

Zobrazení:

Velikost textu:

Jak jste spokojeni s iDNES.cz?

Doporučujeme

Copilot od Microsoftu nabízí zdarma mnoho schopností placeného ChatGPT

Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

Microsoft vás donutí opisovat reklamy. Patent čeká na schválení

Malá firma tvrdí, že počítače dokážou prolomit kód CAPTCHA

Jsi člověk, nebo počítač? Nová umělá inteligence rozpozná i zákeřný text

{NADPIS reklamního článku dlouhý přes dva řádky}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

{NADPIS reklamního článku dlouhý přes dva řádky}

Před 100 lety padl světový rekord v délce letu vrtulníkem

{NADPIS reklamního článku dlouhý přes dva řádky}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

Čínské automobilky skladují přebytky z výroby v evropských přístavech

Embéčko, fordy i porsche. Auta, která na poslední chvíli měnila jméno

Chystáte se sázet brambory? Zkuste to letos nastojato

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Špargl jako lahůdka i afrodiziakum. Vše, co jste o něm chtěli vědět

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

Zobrazení:

Velikost textu:

Jak jste spokojeni s iDNES.cz?