Premium

Získejte všechny články
jen za 89 Kč/měsíc

Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

  9:33
Studenti americké univerzity vyvíjí systém, který naučí počítače číst a umožní preciznější digitalizaci knih. Využívají k tomu obyčejný filtr proti nevyžádané poště.

Naučte počítač číst! Zabere vám to jen pár sekund denně... | foto: Profimedia.cz

Na Carnegie Mellon University pracují studenti na systému, který bude využívat webového antispamového filtru CAPTCHA k učení OCR (Optical Text Recognition - automatické rozpoznávání psaného textu) systému. Uživatelé diskuzních fór, e-mailových schránek apod. tak úplně mimochodem naučí počítače "číst". Celý systém následně umožní preciznější digitalizaci knih.

Systém CAPTCHA by se mohl v brzké době změnit na reCAPTCHA a kromě odfiltrování spamu a "obtěžování" uživatelů zadáváním nesmyslných údajů, by navíc ohl sloužit užitečné věci.

Řekni mi, co čteš, a já ti povím, jestli jsi stroj

S nástrojem CAPTCHA se pravděpodobně denně setkáváme. Jedná se o celkem účinný způsob, jak rozpoznat, zda u počítače sedí člověk, či zda se jedná o automatizovaný program ("bot"). Zkratka CAPTCHA zastupuje poněkud rozsáhlé spojení "Completely Automated Public Turing test to tell Computers and Humans Apart", tedy zcela automatizovaný test na odlišení lišení lidí a počítačů. Jinak řečeno: je to program, který generuje takový test, jaký by sám vyřešit nedokázal ("Takže vidíte, že je vlastně jako někteří profesoři," vtipkuje Louse Von Ahn z Carnegie Mellon University).

Ukázka: CAPTCHA na seznam.cz

Samozřejmě, jak už to nejen ve světě technologií chodí, CAPTCHA se nestala řešením otázky spamerů, spíše výzvou pro spamery. A její první typy brzy podlehly botům (stačí úspěšnost v řádu procent a počítačový program zavalí web falešnými požadavky, narozdíl od člověka jich totiž zvládne tisíce za minutu). CAPTCHA se tak stávaly složitější a tím pádem i méně snesitelné. A také je to prý obrovské plýtvání.

Počítač: Tohle nemůžu přečíst

Denně je celosvětově vyplněno více než 60 milionů takovýchto testů. To znamená 150 tisíc člověkohodin zcela proplýtvaných. Právě to by se mělo změnit. Výsledky lidského vstupu do CAPTCHA se použijí při digitalizaci knih v rámci projektu Internet Archive. OCR má totiž při scanování starých knih často velké problémy.

reCAPTHCA - ukázka

Internet Archive chce zachovat co nejvíce informací a zpřístupnit je veřejnosti na internetu. Kromě knih a filmů také provozuje WayBack Machine, umožňující jakési cesty časem, více v našem článku "Jak se dostat ke stránkám...".

Člověk: Ukaž, já ti pomůžu

Nový systém reCAPTHCA bude vedle sebe dávat spolu s vygenerovanými slovy (tedy znaky, které systém bude schopen ověřit) také slova, která se nepovedlo přečíst při digitalizaci knih systémem OCR. Pokud budou ověřitelné znaky zadané správně, systém si do databáze uloží příslušné slovo, které se mu nepovedlo přečíst, a poučí se ze své chyby.

Každé slovo se objeví více uživatelům zcela nezávisle, aby se vyloučily omyly. Když si uvědomíme, jak obrovskou základnu (ne)dobrovolných učitelů tenle systém má, dá se předpokládat, že může být úspěšný.

Zatím není jasné, kde všude bude reCAPTCHA implementována. Vyzkoušet si ji můžete na oficiálních stránkách projektu.reCAPTHCA - ukázka

Takže až budete zase někdy vyplňovat CAPTCHA, může vás při luštění písmenek hřát vědomí, že nejenže zrovna děláte něco, co zatím počítač neumí, ale ještě tím pomáháte převádět knihy do digitální podoby.

Odkazy:

Autor:
  • Nejčtenější

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

v diskusi je 30 příspěvků

13. dubna 2024

V dubnu 1924 zažilo americké námořnictvo obrovský skandál, který se dostal na titulní stránky...

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

v diskusi je 17 příspěvků

15. dubna 2024

Položíte jej na polici před televizor, propojíte kabelem, zapojíte do zásuvky a během pár chvil se...

Dawesův plán na čas stabilizoval Německo, ale nástup Hitlera neodvrátil

v diskusi je 15 příspěvků

16. dubna 2024

Německá vláda přijala před 100 lety, v dubnu 1924, Dawesův plán. Byl to americký projekt na...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Patnáct zbytečných obětí. Před 100 lety vybuchl důl Gabriela na Ostravsku

v diskusi jsou 4 příspěvky

12. dubna 2024

Dvanáctý duben 1924 přinesl vážnou důlní katastrofu v Československu. Výbuch v dole Gabriela v...

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 1 příspěvek

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

v diskusi je 5 příspěvků

18. dubna 2024

V roce 2004 vstoupilo Lotyšsko do NATO, přesto nemůže nechat svou případnou obranu pouze na bedrech...

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

v diskusi jsou 2 příspěvky

17. dubna 2024  15:12

Vědci z projektu Lassie, sponzorovaném americkou NASA, zdokonalují robotického psa pro použití při...

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

v diskusi je 7 příspěvků

17. dubna 2024  11:50

Před několika týdny proběhla médii informace o varování německého Spolkového úřad pro civilní...

Náhle zemřel zpěvák Maxim Turbulenc Daniel Vali, bylo mu 53 let

Ve věku 53 let zemřel zpěvák skupiny Maxim Turbulenc Daniel Vali. Letos by se svou kapelou oslavil 30 let na scéně....

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Charlotte spí na Hlaváku mezi feťáky, dluží spoustě lidí, říká matka Štikové

Charlotte Štiková (27) před rokem oznámila, že zhubla šedesát kilo. Na aktuálních fotkách, které sdílela na Instagramu...

Vykrojené trikoty budí emoce. Olympijská kolekce Nike je prý sexistická

Velkou kritiku vyvolala kolekce, kterou pro olympijský tým amerických atletek navrhla značka Nike. Pozornost vzbudily...

Rohlík pro dítě, nákup do kočárku. Co v obchodě projde a kdy už hrozí právník?

V obchodech platí pravidla, která občas zákazník nedodržuje. Někdy se navoní parfémem, aniž by použil tester, nebo...