Premium

Získejte všechny články mimořádně
jen za 49 Kč/3 měsíce

Jak se počítač naučil číst milion knížek ročně

aktualizováno  1:19
Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Pro počítač je čtení zatím neskonale složitejší, než pro nás | foto: Profimedia.cz

Jedna z mála věcí, která spojuje (takřka) všechny čtenáře tohoto článku, je... schopnost číst. Pamatujete si ještě, jak jste se učili rozeznávat písmenka? Pak slabiky, slova, věty, netrvalo víc jak rok, a mohli jste číst prakticky cokoli. Málokdy si uvědomujeme, jaký zázrak to vlastně je, že se malé děti naučí rozumět mluvenému a později i psanému slovu, jako nic, řeklo by se.

Až když se lidé pokusili to samé naučit i stroje, poznali, že to zdaleka není taková samozřejmost. Žijeme ale v době, která je spolehlivému počítačovému čtení již velice blízko. Číst se ale stroje zdaleka nenaučily číst za rok.

Optické rozpoznávání znaků

Pokud pomineme složitější a komplexnější aspekty, rozumíme čtením proces, kdy spatřenému symbolu přiřadíme konkrétní znak, tedy že tento znak ve viděném symbolu rozpoznáme. Systémy OCR (optical character recognition) mají v západní kultuře velkou výhodu, jelikož pracujeme s relativně malým počtem znaků (anglická abeceda má pouhých 26 písmen). Přesto je úkol rozeznat v obrazci znak extrémně složitý.

První systémy pracovaly na opticko-mechanickém principu. V roce 1929 si rakouský vynálezce Gustav Tauschek v Německu nechal patentovat systém pro rozpoznávání znaků. Jak jistě víte, v té době ještě neexistovaly počítače, rozhodně ne v dnešním slova smyslu. Však také Tauschekův přístroj pracoval na převážně mechanické bázi - obsahoval šablony jednotlivých znaků, a pokud se šablona pěkně překrývala s daným znakem (což posoudil fotoreceptor, který tak viděl jenom bílou), prohlásil systém znaky za shodné. Ještě tentýž rok od něj patent koupila společnost IBM (v následujících pěti letech od něj odkoupila ještě další patenty).

Tauschekův patent 1935

Rozlouskněte ten kód!

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard (znýmý svým rozlomením kódu z japonského šifrovacího stroje Purple) na automatizaci přepisování dat do strojové formy. Protože bylo nutné převést do strojů velké množství tištěného textu, rozhodl se Shepard, že s kolegou vyvine metodu pro strojové převádění tištěného textu do upravovatelné elektronické podoby. U sebe v podkroví tak během roku s přítelem Harveyem Cookem stavěli systém, který si o rok později nechali patentovat pod jednoduchým názvem "Aparát na čtení" (Apparatus for reading).

Apparatus for Reading

David Shepard si s Williamem Lawlessem založili v roce 1952 firmu Intelligent Machines Research Corporation, aby tak pomohli komerčnímu úspěchu jejich mašinky nazvané "Gismo". To se jim povedlo, protože se na scéně opět objevila firma IBM, která jejich patenty odkoupila. Později mladou firmu i zaúkolovala: "Zkuste vyrobit stroj, který by byl schopný rozpoznávat ručně psané číslice." Mezitím IBM nadále rozvíjela systém rozpoznávání, a poprvé jej také pojmenovala slovy Optical Character Recognition. Ten se udržel dodnes, přestože v dnešní době už probíhá rozpoznávání znaků vesměs v digitální rovině, nikoli opticko-mechanickou cestou.

První komerční využití - předplatné a kreditky

Jako první si aplikaci tohoto systému zakoupila firma Readers Digest, starší bratříček Gisma od firmy IMR jim pomáhal v oddělení pro předplatné. Významným odběratelem byla také kalifornská společnost Standard Oil Company, která OCR začala využívat pro čtení obtisknutých čísel kreditních karet na účtech.

Systém začal žít svým vlastním životem - jakmile se našlo jeho komerční využití, bylo o jeho budoucnost postaráno. Shepard a Lawless se později rozdělili. Zatímco Shepard si založil svoji firmu, Lawless se dostal do společnosti IBM, kde se prý zasloužil o další vynález - je mu připisováno autorství pojmu "software" ve smyslu programového vybavení počítače.

Poštovní směrovací číslo

Systémy pro rozpoznávání znaků používá americké pošta od roku 1965. Využívala přístroje navržené Jacobem Rabinowem, velice plodným americkým vynálezcem, který je kromě čtecích zařízení zodpovědný třeba také za vylepšení v magnetickém ukládání informací. Evropské pošty začaly systémů OCR využívat v roce 1971.

S čím se musí potýkat OCR

V dnešní době jsou již OCR programy rozšířené i mezi běžné uživatele. Jedná se zpravidla o software, který analyzuje obrázek a snaží se v něm rozpoznat text, který pak v co nejvěrnější podobě uloží do editovatelného formátu (TXT, RTF, DOC apod.). Pokročilejší aplikace umí uložit i tabulky, zachovat řezy písma nebo vložit obrázky.

Právě různá písma a grafické prvky rozpoznávání velice znesnadňují. Další zádrhele mohou vyvstat, pokud je text nakloněn, případně nekvalitně reprodukován či nasnímán. Kromě toho jsou v některých písmech skupiny písmen, která mají tendenci tvořit nerozlučné dvojice, čímž opět znesnadňují rozpoznání. Známou takovou dvojicí je "rn", které velice připomíná písmeno "m".

reCAPTHCA - ukázka

Pak nastupuje srovnání slov se slovníkem daného jazyka - program (např.) v pravděpodobnostech vyjádří různé hodnoty pro různá písmena, a bude hledat, které ze slov by nejlépe odpovídalo. Zde přicházejí ke slovu například neuronové sítě, které jsou schopné se učit a tak se postupně zlepšovat (pokud jim ovšem někdo označí, zda byl jejich výstup kvalitní, případně kde byl chybný). Technologie vylepšující OCR o "inteligentní" schopnosti se někdy schovávají pod souhrnný název ICR.

Další možností je gramatická analýza textu - znalost toho, zda bude následovat příslovce nebo přídavné jméno, se pro správné rozpoznání také hodí. Dvojnásob to platí u rozpoznávání rukou psaného textu, který často vůbec neobsahuje dostatek informací na to, aby mohl být správně přepsán bez určitého "domýšlení si". To člověk dělá prakticky podvědomě, pro počítač je to ale těžká zkouška.

popisek Lidé s tím počítači pomáhají
reCaptcha -  učíme počítače číst

Skenování knih a knihoven

Nelze psát o skenování nebo OCR a nezmínit ambiciózní projekty typu Gutenberg.orgLive Books Search nebo Google Books. Objemy, které tyto iniciativy skenují, se vymykají běžným užitím. Např. Google má v plánu naskenovat něco kolem padesáti milionů knih z univerzitních knihoven po celém světě, aby se tak více přiblížil svému cíli "učinit všechny informace na světě dostupné a prohledávatelné."

K takovému množství samozřejmě nelze použít lidskou práci - naskenovat knihovnu za použití domácího stolního skeneru by trvalo nezměrně dlouho. Navíc by to bylo i velice nešetrné ke knihám. Zvláště pro univerzitní knihovny, které mají často jediný přeživší exemplář dané knihy, je bezpečnost svazků na prvním místě. Zástupcům Google proto trvalo velice dlouho, než získali souhlas k naskenování knih za použití stroje.

 APT BookScan 1200
APT BookScan 1200 zvládne nasnímat až 1200 snímků za hodinu v rozlišení 16.6 Mpix


Naskenované knihy pak projdou OCR programem, který jednotlivým obrázkům přiřadí text a učiní je tak prohledávatelnými. To je obrovská výhoda, která umožňuje prohledávat knihy podobně, jako dosud pouze počítačové dokumenty. "Dokonce ještě před tím, než jsme spustili Google, snili jsme o tom učinit to obrovské množství informací, které je tak nádherně uspořádané v knihovnách, učinit prohledávatelné on-line," vzpomíná Larry Page, spoluzakladatel společnosti Google. Jak je vidět zde, zatím se jim to daří.

Jak hledat v Google Books

Na books.google.com zadáte jméno knihy, autora nebo třeba jen text, který v knize hledáte:

Google Books - vyhledávání

V dané knížce můžete i vyhledávat. Pokud je kniha chráněná autorským právem, zobrazí se vám pouze úryvky z knihy spolu s číslem stránky:

Google Books - úryvky

Pokud si najdete knihu, která je v public domain nebo je z jiného důvodu k dispozici celá, můžete s ní zacházet téměř libovolně. Prohlížet si ji, vyhledávat v ní, stáhnout si ji v PDF formátu:

Google Books - Picture of Dorian Gray


Google tento týden oznámil, že otevírá svůj systém Google Books i pro české vydavatele. České knihy jsou ale v systému už dávno:

Google Books - Slovan


Pevně doufám, že se k problematice skenování knížek (a knihoven) ještě na Technetu vrátíme. Ostatně i samotné skenování takového objemu dat je vždycky běh na dlouho trať (desítky let přinejmenším). Každý den navíc vznikají desítky knih nových. Ty jsou však již psány v elektronické podobě a zapojení OCR nevyžadují.

Pište prosím čitelně

Dnes je OCR používáno v mnoha oblastech a pravděpodobně jste na něj narazili i vy, ať už při skenování dokumentu do počítače, nebo při vyplňování dotazníku "čitelným hůlkovým písmem." Dejte si příště záležet a písmenka dotahujte. Musíme mít s počítači strpení. Číst se učí teprve 80 let...

Odkazy

Autor:
  • Nejčtenější

V noci na pondělí přinese prach z Halleyovy komety nebeskou podívanou

v diskusi je 6 příspěvků

5. května 2024

Meteorický roj Eta-Aquaridy je jedním ze dvou, jehož původ můžeme spojit se slavnou Halleyovou...

Jak mohou být tak levná? Výborně hrající sluchátka lze koupit „za hubičku“

v diskusi je 7 příspěvků

3. května 2024

Premium Milovníci kvalitně reprodukované hudby mohou za sluchátka utratit spoustu peněz a nelitovat toho,...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

KVÍZ generála Pattona. Vypořádejte se s ocelovou lavinou

v diskusi je 8 příspěvků

28. dubna 2024

Jak jste dobří v tancích, poznáte je nejen na plese, ale i v následujícím kvízu. Kvíz je zaměřen na...

Štefánikova tragická smrt i po pěti letech budila v Československu emoce

v diskusi je 20 příspěvků

4. května 2024

Československo si před 100 lety, 4. května 1924, připomnělo páté výročí tragické smrti jednoho ze...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Malý bojovník na Měsíci zvládl, co se nečekalo. Přežil tamní kruté noci

v diskusi jsou 2 příspěvky

3. května 2024  14:32

Japonské zařízení Smart Lander for Investigating Moon (SLIM) bylo prvním, které letos úspěšně...

KOMENTÁŘ: Zbraň na AI? Proti strojům lze postavit kolektivní superinteligenci

v diskusi jsou 4 příspěvky

5. května 2024

Premium Státy pokulhávají za vědou a technikou ve snaze regulovat umělou inteligenci. Stroje přitom mají...

Litevci, Poláci nebo Hitler? Baltské mocnosti se přetahovaly o Memel

v diskusi jsou 3 příspěvky

5. května 2024

Květen 1924 přinesl diplomatické vítězství Litevců nad Poláky. Svět jim přiklepl původně německý...

V noci na pondělí přinese prach z Halleyovy komety nebeskou podívanou

v diskusi je 6 příspěvků

5. května 2024

Meteorický roj Eta-Aquaridy je jedním ze dvou, jehož původ můžeme spojit se slavnou Halleyovou...

KVÍZ: Připomeňme si květnové povstání a konec druhé světové války v Evropě

v diskusi je 14 příspěvků

5. května 2024

Výročí květnového povstání v Českých zemích a konec druhé světové války v Evropě si připomeneme...

Dara Rolins je po další plastice. Kritiku fanoušků nechápe, cítí se svěží

Zpěvačka Dara Rolins (51) se na čas stáhla z veřejného života. V tom období prodělala „estetický zákrok“ a na sociální...

Natáčení Přátel bylo otřesné, vzpomíná herečka Olivia Williamsová

Britská herečka Olivia Williamsová (53) si ve čtvrté sérii sitcomu Přátelé zahrála epizodní roli jedné z družiček na...

Byli vedle ní samí ztroskotanci, vzpomíná Basiková na muže Bartošové

Byly každá z jiného těsta, ale hlavně se pohybovaly na opačných pólech hudebního spektra. Iveta Bartošová byla...

Ukaž kozy, řvali na ni. Potřebovala jsem se obouchat, vzpomíná komička Macháčková

Rozstřel Pravidelně vystupuje v pořadu Comedy Club se svými stand-upy, za knihu Svatební historky aneb jak jsem se nevdala se...

Je to šílený, hodnotily firmy práci řemeslníků, kteří opravili střechu

Po zimě se často ukážou mnohé „vady na kráse“ domu, střechy nevyjímaje. Někdy nezbývá nic jiného než kompletní výměna....