Premium

Získejte všechny články
jen za 89 Kč/měsíc

Jak se počítač naučil číst milion knížek ročně

aktualizováno  1:19
Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Pro počítač je čtení zatím neskonale složitejší, než pro nás | foto: Profimedia.cz

Jedna z mála věcí, která spojuje (takřka) všechny čtenáře tohoto článku, je... schopnost číst. Pamatujete si ještě, jak jste se učili rozeznávat písmenka? Pak slabiky, slova, věty, netrvalo víc jak rok, a mohli jste číst prakticky cokoli. Málokdy si uvědomujeme, jaký zázrak to vlastně je, že se malé děti naučí rozumět mluvenému a později i psanému slovu, jako nic, řeklo by se.

Až když se lidé pokusili to samé naučit i stroje, poznali, že to zdaleka není taková samozřejmost. Žijeme ale v době, která je spolehlivému počítačovému čtení již velice blízko. Číst se ale stroje zdaleka nenaučily číst za rok.

Optické rozpoznávání znaků

Pokud pomineme složitější a komplexnější aspekty, rozumíme čtením proces, kdy spatřenému symbolu přiřadíme konkrétní znak, tedy že tento znak ve viděném symbolu rozpoznáme. Systémy OCR (optical character recognition) mají v západní kultuře velkou výhodu, jelikož pracujeme s relativně malým počtem znaků (anglická abeceda má pouhých 26 písmen). Přesto je úkol rozeznat v obrazci znak extrémně složitý.

První systémy pracovaly na opticko-mechanickém principu. V roce 1929 si rakouský vynálezce Gustav Tauschek v Německu nechal patentovat systém pro rozpoznávání znaků. Jak jistě víte, v té době ještě neexistovaly počítače, rozhodně ne v dnešním slova smyslu. Však také Tauschekův přístroj pracoval na převážně mechanické bázi - obsahoval šablony jednotlivých znaků, a pokud se šablona pěkně překrývala s daným znakem (což posoudil fotoreceptor, který tak viděl jenom bílou), prohlásil systém znaky za shodné. Ještě tentýž rok od něj patent koupila společnost IBM (v následujících pěti letech od něj odkoupila ještě další patenty).

Tauschekův patent 1935

Rozlouskněte ten kód!

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard (znýmý svým rozlomením kódu z japonského šifrovacího stroje Purple) na automatizaci přepisování dat do strojové formy. Protože bylo nutné převést do strojů velké množství tištěného textu, rozhodl se Shepard, že s kolegou vyvine metodu pro strojové převádění tištěného textu do upravovatelné elektronické podoby. U sebe v podkroví tak během roku s přítelem Harveyem Cookem stavěli systém, který si o rok později nechali patentovat pod jednoduchým názvem "Aparát na čtení" (Apparatus for reading).

Apparatus for Reading

David Shepard si s Williamem Lawlessem založili v roce 1952 firmu Intelligent Machines Research Corporation, aby tak pomohli komerčnímu úspěchu jejich mašinky nazvané "Gismo". To se jim povedlo, protože se na scéně opět objevila firma IBM, která jejich patenty odkoupila. Později mladou firmu i zaúkolovala: "Zkuste vyrobit stroj, který by byl schopný rozpoznávat ručně psané číslice." Mezitím IBM nadále rozvíjela systém rozpoznávání, a poprvé jej také pojmenovala slovy Optical Character Recognition. Ten se udržel dodnes, přestože v dnešní době už probíhá rozpoznávání znaků vesměs v digitální rovině, nikoli opticko-mechanickou cestou.

První komerční využití - předplatné a kreditky

Jako první si aplikaci tohoto systému zakoupila firma Readers Digest, starší bratříček Gisma od firmy IMR jim pomáhal v oddělení pro předplatné. Významným odběratelem byla také kalifornská společnost Standard Oil Company, která OCR začala využívat pro čtení obtisknutých čísel kreditních karet na účtech.

Systém začal žít svým vlastním životem - jakmile se našlo jeho komerční využití, bylo o jeho budoucnost postaráno. Shepard a Lawless se později rozdělili. Zatímco Shepard si založil svoji firmu, Lawless se dostal do společnosti IBM, kde se prý zasloužil o další vynález - je mu připisováno autorství pojmu "software" ve smyslu programového vybavení počítače.

Poštovní směrovací číslo

Systémy pro rozpoznávání znaků používá americké pošta od roku 1965. Využívala přístroje navržené Jacobem Rabinowem, velice plodným americkým vynálezcem, který je kromě čtecích zařízení zodpovědný třeba také za vylepšení v magnetickém ukládání informací. Evropské pošty začaly systémů OCR využívat v roce 1971.

S čím se musí potýkat OCR

V dnešní době jsou již OCR programy rozšířené i mezi běžné uživatele. Jedná se zpravidla o software, který analyzuje obrázek a snaží se v něm rozpoznat text, který pak v co nejvěrnější podobě uloží do editovatelného formátu (TXT, RTF, DOC apod.). Pokročilejší aplikace umí uložit i tabulky, zachovat řezy písma nebo vložit obrázky.

Právě různá písma a grafické prvky rozpoznávání velice znesnadňují. Další zádrhele mohou vyvstat, pokud je text nakloněn, případně nekvalitně reprodukován či nasnímán. Kromě toho jsou v některých písmech skupiny písmen, která mají tendenci tvořit nerozlučné dvojice, čímž opět znesnadňují rozpoznání. Známou takovou dvojicí je "rn", které velice připomíná písmeno "m".

reCAPTHCA - ukázka

Pak nastupuje srovnání slov se slovníkem daného jazyka - program (např.) v pravděpodobnostech vyjádří různé hodnoty pro různá písmena, a bude hledat, které ze slov by nejlépe odpovídalo. Zde přicházejí ke slovu například neuronové sítě, které jsou schopné se učit a tak se postupně zlepšovat (pokud jim ovšem někdo označí, zda byl jejich výstup kvalitní, případně kde byl chybný). Technologie vylepšující OCR o "inteligentní" schopnosti se někdy schovávají pod souhrnný název ICR.

Další možností je gramatická analýza textu - znalost toho, zda bude následovat příslovce nebo přídavné jméno, se pro správné rozpoznání také hodí. Dvojnásob to platí u rozpoznávání rukou psaného textu, který často vůbec neobsahuje dostatek informací na to, aby mohl být správně přepsán bez určitého "domýšlení si". To člověk dělá prakticky podvědomě, pro počítač je to ale těžká zkouška.

popisek Lidé s tím počítači pomáhají
reCaptcha -  učíme počítače číst

Skenování knih a knihoven

Nelze psát o skenování nebo OCR a nezmínit ambiciózní projekty typu Gutenberg.orgLive Books Search nebo Google Books. Objemy, které tyto iniciativy skenují, se vymykají běžným užitím. Např. Google má v plánu naskenovat něco kolem padesáti milionů knih z univerzitních knihoven po celém světě, aby se tak více přiblížil svému cíli "učinit všechny informace na světě dostupné a prohledávatelné."

K takovému množství samozřejmě nelze použít lidskou práci - naskenovat knihovnu za použití domácího stolního skeneru by trvalo nezměrně dlouho. Navíc by to bylo i velice nešetrné ke knihám. Zvláště pro univerzitní knihovny, které mají často jediný přeživší exemplář dané knihy, je bezpečnost svazků na prvním místě. Zástupcům Google proto trvalo velice dlouho, než získali souhlas k naskenování knih za použití stroje.

 APT BookScan 1200
APT BookScan 1200 zvládne nasnímat až 1200 snímků za hodinu v rozlišení 16.6 Mpix


Naskenované knihy pak projdou OCR programem, který jednotlivým obrázkům přiřadí text a učiní je tak prohledávatelnými. To je obrovská výhoda, která umožňuje prohledávat knihy podobně, jako dosud pouze počítačové dokumenty. "Dokonce ještě před tím, než jsme spustili Google, snili jsme o tom učinit to obrovské množství informací, které je tak nádherně uspořádané v knihovnách, učinit prohledávatelné on-line," vzpomíná Larry Page, spoluzakladatel společnosti Google. Jak je vidět zde, zatím se jim to daří.

Jak hledat v Google Books

Na books.google.com zadáte jméno knihy, autora nebo třeba jen text, který v knize hledáte:

Google Books - vyhledávání

V dané knížce můžete i vyhledávat. Pokud je kniha chráněná autorským právem, zobrazí se vám pouze úryvky z knihy spolu s číslem stránky:

Google Books - úryvky

Pokud si najdete knihu, která je v public domain nebo je z jiného důvodu k dispozici celá, můžete s ní zacházet téměř libovolně. Prohlížet si ji, vyhledávat v ní, stáhnout si ji v PDF formátu:

Google Books - Picture of Dorian Gray


Google tento týden oznámil, že otevírá svůj systém Google Books i pro české vydavatele. České knihy jsou ale v systému už dávno:

Google Books - Slovan


Pevně doufám, že se k problematice skenování knížek (a knihoven) ještě na Technetu vrátíme. Ostatně i samotné skenování takového objemu dat je vždycky běh na dlouho trať (desítky let přinejmenším). Každý den navíc vznikají desítky knih nových. Ty jsou však již psány v elektronické podobě a zapojení OCR nevyžadují.

Pište prosím čitelně

Dnes je OCR používáno v mnoha oblastech a pravděpodobně jste na něj narazili i vy, ať už při skenování dokumentu do počítače, nebo při vyplňování dotazníku "čitelným hůlkovým písmem." Dejte si příště záležet a písmenka dotahujte. Musíme mít s počítači strpení. Číst se učí teprve 80 let...

Odkazy

Autor:
  • Nejčtenější

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 135 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 27 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 51 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

Jiří Horák obnovil ČSSD a dovedl ji do parlamentu. Se Zemanem si nerozuměl

v diskusi nejsou příspěvky

24. dubna 2024

Před 100 lety se narodil Jiří Horák, který po sametové revoluci pomáhal znovuobnovit sociální...

Dnes už se bez nich válčit nedá. Raketový vzestup bojových dronů

v diskusi jsou 3 příspěvky

24. dubna 2024

Bezpilotní letadla (drony) jsou v posledních dvou dekádách na raketovém vzestupu. Přispěla k tomu...

Snadno s fotkami už i ve Windows. Aplikace Fotografie vyrostla na novou úroveň

v diskusi nejsou příspěvky

24. dubna 2024

Premium Aplikace Fotografie, která je pevnou součástí Windows, slouží nejen k prohlížení obrázků. Stejně...

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 135 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Manželé Babišovi se rozcházejí, přejí si zachovat rodinnou harmonii

Podnikatel, předseda ANO a bývalý premiér Andrej Babiš (69) s manželkou Monikou (49) v pátek oznámili, že se...

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Největší mýty o zubní hygieně, kvůli kterým si můžete zničit chrup

Možná si myslíte, že se v péči o zuby orientujete dost dobře, přesto v této oblasti stále ještě existuje spousta...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...