Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

  9:33aktualizováno  9:33
Studenti americké univerzity vyvíjí systém, který naučí počítače číst a umožní preciznější digitalizaci knih. Využívají k tomu obyčejný filtr proti nevyžádané poště.

Naučte počítač číst! Zabere vám to jen pár sekund denně... | foto: Profimedia.cz

Na Carnegie Mellon University pracují studenti na systému, který bude využívat webového antispamového filtru CAPTCHA k učení OCR (Optical Text Recognition - automatické rozpoznávání psaného textu) systému. Uživatelé diskuzních fór, e-mailových schránek apod. tak úplně mimochodem naučí počítače "číst". Celý systém následně umožní preciznější digitalizaci knih.

Systém CAPTCHA by se mohl v brzké době změnit na reCAPTCHA a kromě odfiltrování spamu a "obtěžování" uživatelů zadáváním nesmyslných údajů, by navíc ohl sloužit užitečné věci.

Řekni mi, co čteš, a já ti povím, jestli jsi stroj

S nástrojem CAPTCHA se pravděpodobně denně setkáváme. Jedná se o celkem účinný způsob, jak rozpoznat, zda u počítače sedí člověk, či zda se jedná o automatizovaný program ("bot"). Zkratka CAPTCHA zastupuje poněkud rozsáhlé spojení "Completely Automated Public Turing test to tell Computers and Humans Apart", tedy zcela automatizovaný test na odlišení lišení lidí a počítačů. Jinak řečeno: je to program, který generuje takový test, jaký by sám vyřešit nedokázal ("Takže vidíte, že je vlastně jako někteří profesoři," vtipkuje Louse Von Ahn z Carnegie Mellon University).

Ukázka: CAPTCHA na seznam.cz

Samozřejmě, jak už to nejen ve světě technologií chodí, CAPTCHA se nestala řešením otázky spamerů, spíše výzvou pro spamery. A její první typy brzy podlehly botům (stačí úspěšnost v řádu procent a počítačový program zavalí web falešnými požadavky, narozdíl od člověka jich totiž zvládne tisíce za minutu). CAPTCHA se tak stávaly složitější a tím pádem i méně snesitelné. A také je to prý obrovské plýtvání.

Počítač: Tohle nemůžu přečíst

Denně je celosvětově vyplněno více než 60 milionů takovýchto testů. To znamená 150 tisíc člověkohodin zcela proplýtvaných. Právě to by se mělo změnit. Výsledky lidského vstupu do CAPTCHA se použijí při digitalizaci knih v rámci projektu Internet Archive. OCR má totiž při scanování starých knih často velké problémy.

reCAPTHCA - ukázka

Internet Archive chce zachovat co nejvíce informací a zpřístupnit je veřejnosti na internetu. Kromě knih a filmů také provozuje WayBack Machine, umožňující jakési cesty časem, více v našem článku "Jak se dostat ke stránkám...".

Člověk: Ukaž, já ti pomůžu

Nový systém reCAPTHCA bude vedle sebe dávat spolu s vygenerovanými slovy (tedy znaky, které systém bude schopen ověřit) také slova, která se nepovedlo přečíst při digitalizaci knih systémem OCR. Pokud budou ověřitelné znaky zadané správně, systém si do databáze uloží příslušné slovo, které se mu nepovedlo přečíst, a poučí se ze své chyby.

Každé slovo se objeví více uživatelům zcela nezávisle, aby se vyloučily omyly. Když si uvědomíme, jak obrovskou základnu (ne)dobrovolných učitelů tenle systém má, dá se předpokládat, že může být úspěšný.

Zatím není jasné, kde všude bude reCAPTCHA implementována. Vyzkoušet si ji můžete na oficiálních stránkách projektu.reCAPTHCA - ukázka

Takže až budete zase někdy vyplňovat CAPTCHA, může vás při luštění písmenek hřát vědomí, že nejenže zrovna děláte něco, co zatím počítač neumí, ale ještě tím pomáháte převádět knihy do digitální podoby.

Odkazy:

Autor:




Hlavní zprávy

Další z rubriky

ZmapujTo.cz
Tipy na weby: Ukliďte Česko. Hlaste podněty přímo z ulice či lesa

Práskat se nemá, ale hlásit se to musí. Poukažte na problémy ve vašem okolí přímo z terénu a nechte je řešit díky projektu ZmapujTo.cz. Smazat sami sebe z...  celý článek

Logo bitcoinu
Bitcoin se rozdělí na dvě měny. Může to snížit cenu původního bitcoinu

Vedle klasického bitcoinu vzniká nová virtuální měna bitcoin cash. Uživatelé si budou moci vybrat, kterou budou používat.   celý článek

(Ilustrační snímek)
Upozornil MHD na ostudnou chybu. Maďarská policie ho zatkla jako „hackera“

Maďarský provozovatel hromadné dopravy v Budapešti zavedl nový systém pro placení lístků on-line. Narychlo spuštěné stránky však obsahovaly řadu zásadních...  celý článek

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.