Premium

Získejte všechny články
jen za 89 Kč/měsíc

Jak se počítač naučil číst milion knížek ročně

aktualizováno  1:19
Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Pro počítač je čtení zatím neskonale složitejší, než pro nás | foto: Profimedia.cz

Jedna z mála věcí, která spojuje (takřka) všechny čtenáře tohoto článku, je... schopnost číst. Pamatujete si ještě, jak jste se učili rozeznávat písmenka? Pak slabiky, slova, věty, netrvalo víc jak rok, a mohli jste číst prakticky cokoli. Málokdy si uvědomujeme, jaký zázrak to vlastně je, že se malé děti naučí rozumět mluvenému a později i psanému slovu, jako nic, řeklo by se.

Až když se lidé pokusili to samé naučit i stroje, poznali, že to zdaleka není taková samozřejmost. Žijeme ale v době, která je spolehlivému počítačovému čtení již velice blízko. Číst se ale stroje zdaleka nenaučily číst za rok.

Optické rozpoznávání znaků

Pokud pomineme složitější a komplexnější aspekty, rozumíme čtením proces, kdy spatřenému symbolu přiřadíme konkrétní znak, tedy že tento znak ve viděném symbolu rozpoznáme. Systémy OCR (optical character recognition) mají v západní kultuře velkou výhodu, jelikož pracujeme s relativně malým počtem znaků (anglická abeceda má pouhých 26 písmen). Přesto je úkol rozeznat v obrazci znak extrémně složitý.

První systémy pracovaly na opticko-mechanickém principu. V roce 1929 si rakouský vynálezce Gustav Tauschek v Německu nechal patentovat systém pro rozpoznávání znaků. Jak jistě víte, v té době ještě neexistovaly počítače, rozhodně ne v dnešním slova smyslu. Však také Tauschekův přístroj pracoval na převážně mechanické bázi - obsahoval šablony jednotlivých znaků, a pokud se šablona pěkně překrývala s daným znakem (což posoudil fotoreceptor, který tak viděl jenom bílou), prohlásil systém znaky za shodné. Ještě tentýž rok od něj patent koupila společnost IBM (v následujících pěti letech od něj odkoupila ještě další patenty).

Tauschekův patent 1935

Rozlouskněte ten kód!

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard (znýmý svým rozlomením kódu z japonského šifrovacího stroje Purple) na automatizaci přepisování dat do strojové formy. Protože bylo nutné převést do strojů velké množství tištěného textu, rozhodl se Shepard, že s kolegou vyvine metodu pro strojové převádění tištěného textu do upravovatelné elektronické podoby. U sebe v podkroví tak během roku s přítelem Harveyem Cookem stavěli systém, který si o rok později nechali patentovat pod jednoduchým názvem "Aparát na čtení" (Apparatus for reading).

Apparatus for Reading

David Shepard si s Williamem Lawlessem založili v roce 1952 firmu Intelligent Machines Research Corporation, aby tak pomohli komerčnímu úspěchu jejich mašinky nazvané "Gismo". To se jim povedlo, protože se na scéně opět objevila firma IBM, která jejich patenty odkoupila. Později mladou firmu i zaúkolovala: "Zkuste vyrobit stroj, který by byl schopný rozpoznávat ručně psané číslice." Mezitím IBM nadále rozvíjela systém rozpoznávání, a poprvé jej také pojmenovala slovy Optical Character Recognition. Ten se udržel dodnes, přestože v dnešní době už probíhá rozpoznávání znaků vesměs v digitální rovině, nikoli opticko-mechanickou cestou.

První komerční využití - předplatné a kreditky

Jako první si aplikaci tohoto systému zakoupila firma Readers Digest, starší bratříček Gisma od firmy IMR jim pomáhal v oddělení pro předplatné. Významným odběratelem byla také kalifornská společnost Standard Oil Company, která OCR začala využívat pro čtení obtisknutých čísel kreditních karet na účtech.

Systém začal žít svým vlastním životem - jakmile se našlo jeho komerční využití, bylo o jeho budoucnost postaráno. Shepard a Lawless se později rozdělili. Zatímco Shepard si založil svoji firmu, Lawless se dostal do společnosti IBM, kde se prý zasloužil o další vynález - je mu připisováno autorství pojmu "software" ve smyslu programového vybavení počítače.

Poštovní směrovací číslo

Systémy pro rozpoznávání znaků používá americké pošta od roku 1965. Využívala přístroje navržené Jacobem Rabinowem, velice plodným americkým vynálezcem, který je kromě čtecích zařízení zodpovědný třeba také za vylepšení v magnetickém ukládání informací. Evropské pošty začaly systémů OCR využívat v roce 1971.

S čím se musí potýkat OCR

V dnešní době jsou již OCR programy rozšířené i mezi běžné uživatele. Jedná se zpravidla o software, který analyzuje obrázek a snaží se v něm rozpoznat text, který pak v co nejvěrnější podobě uloží do editovatelného formátu (TXT, RTF, DOC apod.). Pokročilejší aplikace umí uložit i tabulky, zachovat řezy písma nebo vložit obrázky.

Právě různá písma a grafické prvky rozpoznávání velice znesnadňují. Další zádrhele mohou vyvstat, pokud je text nakloněn, případně nekvalitně reprodukován či nasnímán. Kromě toho jsou v některých písmech skupiny písmen, která mají tendenci tvořit nerozlučné dvojice, čímž opět znesnadňují rozpoznání. Známou takovou dvojicí je "rn", které velice připomíná písmeno "m".

reCAPTHCA - ukázka

Pak nastupuje srovnání slov se slovníkem daného jazyka - program (např.) v pravděpodobnostech vyjádří různé hodnoty pro různá písmena, a bude hledat, které ze slov by nejlépe odpovídalo. Zde přicházejí ke slovu například neuronové sítě, které jsou schopné se učit a tak se postupně zlepšovat (pokud jim ovšem někdo označí, zda byl jejich výstup kvalitní, případně kde byl chybný). Technologie vylepšující OCR o "inteligentní" schopnosti se někdy schovávají pod souhrnný název ICR.

Další možností je gramatická analýza textu - znalost toho, zda bude následovat příslovce nebo přídavné jméno, se pro správné rozpoznání také hodí. Dvojnásob to platí u rozpoznávání rukou psaného textu, který často vůbec neobsahuje dostatek informací na to, aby mohl být správně přepsán bez určitého "domýšlení si". To člověk dělá prakticky podvědomě, pro počítač je to ale těžká zkouška.

popisek Lidé s tím počítači pomáhají
reCaptcha -  učíme počítače číst

Skenování knih a knihoven

Nelze psát o skenování nebo OCR a nezmínit ambiciózní projekty typu Gutenberg.orgLive Books Search nebo Google Books. Objemy, které tyto iniciativy skenují, se vymykají běžným užitím. Např. Google má v plánu naskenovat něco kolem padesáti milionů knih z univerzitních knihoven po celém světě, aby se tak více přiblížil svému cíli "učinit všechny informace na světě dostupné a prohledávatelné."

K takovému množství samozřejmě nelze použít lidskou práci - naskenovat knihovnu za použití domácího stolního skeneru by trvalo nezměrně dlouho. Navíc by to bylo i velice nešetrné ke knihám. Zvláště pro univerzitní knihovny, které mají často jediný přeživší exemplář dané knihy, je bezpečnost svazků na prvním místě. Zástupcům Google proto trvalo velice dlouho, než získali souhlas k naskenování knih za použití stroje.

 APT BookScan 1200
APT BookScan 1200 zvládne nasnímat až 1200 snímků za hodinu v rozlišení 16.6 Mpix


Naskenované knihy pak projdou OCR programem, který jednotlivým obrázkům přiřadí text a učiní je tak prohledávatelnými. To je obrovská výhoda, která umožňuje prohledávat knihy podobně, jako dosud pouze počítačové dokumenty. "Dokonce ještě před tím, než jsme spustili Google, snili jsme o tom učinit to obrovské množství informací, které je tak nádherně uspořádané v knihovnách, učinit prohledávatelné on-line," vzpomíná Larry Page, spoluzakladatel společnosti Google. Jak je vidět zde, zatím se jim to daří.

Jak hledat v Google Books

Na books.google.com zadáte jméno knihy, autora nebo třeba jen text, který v knize hledáte:

Google Books - vyhledávání

V dané knížce můžete i vyhledávat. Pokud je kniha chráněná autorským právem, zobrazí se vám pouze úryvky z knihy spolu s číslem stránky:

Google Books - úryvky

Pokud si najdete knihu, která je v public domain nebo je z jiného důvodu k dispozici celá, můžete s ní zacházet téměř libovolně. Prohlížet si ji, vyhledávat v ní, stáhnout si ji v PDF formátu:

Google Books - Picture of Dorian Gray


Google tento týden oznámil, že otevírá svůj systém Google Books i pro české vydavatele. České knihy jsou ale v systému už dávno:

Google Books - Slovan


Pevně doufám, že se k problematice skenování knížek (a knihoven) ještě na Technetu vrátíme. Ostatně i samotné skenování takového objemu dat je vždycky běh na dlouho trať (desítky let přinejmenším). Každý den navíc vznikají desítky knih nových. Ty jsou však již psány v elektronické podobě a zapojení OCR nevyžadují.

Pište prosím čitelně

Dnes je OCR používáno v mnoha oblastech a pravděpodobně jste na něj narazili i vy, ať už při skenování dokumentu do počítače, nebo při vyplňování dotazníku "čitelným hůlkovým písmem." Dejte si příště záležet a písmenka dotahujte. Musíme mít s počítači strpení. Číst se učí teprve 80 let...

Odkazy

Autor:
  • Nejčtenější

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

v diskusi je 30 příspěvků

13. dubna 2024

V dubnu 1924 zažilo americké námořnictvo obrovský skandál, který se dostal na titulní stránky...

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

v diskusi je 17 příspěvků

15. dubna 2024

Položíte jej na polici před televizor, propojíte kabelem, zapojíte do zásuvky a během pár chvil se...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 12 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

Na méně používané dráze se potkalo několik obrů i návštěva z pouště

v diskusi jsou 2 příspěvky

10. dubna 2024  10:13

Letiště Václava Havla využívá při tzv. západním proudění jako hlavní dráhu pro starty a přistání...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

OBRAZEM: Po zkušenostech s Moskvou neponechává Litva otázku výzbroje náhodě

v diskusi je 19 příspěvků

11. dubna 2024

Litva se stala členem obranné aliance NATO v roce 2004. Pro zajištění vlastní bezpečnosti v...

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

v diskusi jsou 4 příspěvky

18. dubna 2024

V roce 2004 vstoupilo Lotyšsko do NATO, přesto nemůže nechat svou případnou obranu pouze na bedrech...

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

v diskusi nejsou příspěvky

17. dubna 2024  15:12

Vědci z projektu Lassie, sponzorovaném americkou NASA, zdokonalují robotického psa pro použití při...

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

v diskusi jsou 3 příspěvky

17. dubna 2024  11:50

Před několika týdny proběhla médii informace o varování německého Spolkového úřad pro civilní...

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 12 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Náhle zemřel zpěvák Maxim Turbulenc Daniel Vali, bylo mu 53 let

Ve věku 53 let zemřel zpěvák skupiny Maxim Turbulenc Daniel Vali. Letos by se svou kapelou oslavil 30 let na scéně....

Vykrojené trikoty budí emoce. Olympijská kolekce Nike je prý sexistická

Velkou kritiku vyvolala kolekce, kterou pro olympijský tým amerických atletek navrhla značka Nike. Pozornost vzbudily...

Charlotte spí na Hlaváku mezi feťáky, dluží spoustě lidí, říká matka Štikové

Charlotte Štiková (27) před rokem oznámila, že zhubla šedesát kilo. Na aktuálních fotkách, které sdílela na Instagramu...

Rohlík pro dítě, nákup do kočárku. Co v obchodě projde a kdy už hrozí právník?

V obchodech platí pravidla, která občas zákazník nedodržuje. Někdy se navoní parfémem, aniž by použil tester, nebo...

Ve StarDance zatančí Vondráčková, Paulová, hvězda Kukaček i mistryně světa

Tuzemská verze celosvětově mimořádně úspěšné soutěže StarDance britské veřejnoprávní televizní společnosti BBC se už na...