Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Jak se počítač naučil číst milion knížek ročně

aktualizováno  1:19
Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Pro počítač je čtení zatím neskonale složitejší, než pro nás | foto: Profimedia.cz

Jedna z mála věcí, která spojuje (takřka) všechny čtenáře tohoto článku, je... schopnost číst. Pamatujete si ještě, jak jste se učili rozeznávat písmenka? Pak slabiky, slova, věty, netrvalo víc jak rok, a mohli jste číst prakticky cokoli. Málokdy si uvědomujeme, jaký zázrak to vlastně je, že se malé děti naučí rozumět mluvenému a později i psanému slovu, jako nic, řeklo by se.

Až když se lidé pokusili to samé naučit i stroje, poznali, že to zdaleka není taková samozřejmost. Žijeme ale v době, která je spolehlivému počítačovému čtení již velice blízko. Číst se ale stroje zdaleka nenaučily číst za rok.

Optické rozpoznávání znaků

Pokud pomineme složitější a komplexnější aspekty, rozumíme čtením proces, kdy spatřenému symbolu přiřadíme konkrétní znak, tedy že tento znak ve viděném symbolu rozpoznáme. Systémy OCR (optical character recognition) mají v západní kultuře velkou výhodu, jelikož pracujeme s relativně malým počtem znaků (anglická abeceda má pouhých 26 písmen). Přesto je úkol rozeznat v obrazci znak extrémně složitý.

První systémy pracovaly na opticko-mechanickém principu. V roce 1929 si rakouský vynálezce Gustav Tauschek v Německu nechal patentovat systém pro rozpoznávání znaků. Jak jistě víte, v té době ještě neexistovaly počítače, rozhodně ne v dnešním slova smyslu. Však také Tauschekův přístroj pracoval na převážně mechanické bázi - obsahoval šablony jednotlivých znaků, a pokud se šablona pěkně překrývala s daným znakem (což posoudil fotoreceptor, který tak viděl jenom bílou), prohlásil systém znaky za shodné. Ještě tentýž rok od něj patent koupila společnost IBM (v následujících pěti letech od něj odkoupila ještě další patenty).

Tauschekův patent 1935

Rozlouskněte ten kód!

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard (znýmý svým rozlomením kódu z japonského šifrovacího stroje Purple) na automatizaci přepisování dat do strojové formy. Protože bylo nutné převést do strojů velké množství tištěného textu, rozhodl se Shepard, že s kolegou vyvine metodu pro strojové převádění tištěného textu do upravovatelné elektronické podoby. U sebe v podkroví tak během roku s přítelem Harveyem Cookem stavěli systém, který si o rok později nechali patentovat pod jednoduchým názvem "Aparát na čtení" (Apparatus for reading).

Apparatus for Reading

David Shepard si s Williamem Lawlessem založili v roce 1952 firmu Intelligent Machines Research Corporation, aby tak pomohli komerčnímu úspěchu jejich mašinky nazvané "Gismo". To se jim povedlo, protože se na scéně opět objevila firma IBM, která jejich patenty odkoupila. Později mladou firmu i zaúkolovala: "Zkuste vyrobit stroj, který by byl schopný rozpoznávat ručně psané číslice." Mezitím IBM nadále rozvíjela systém rozpoznávání, a poprvé jej také pojmenovala slovy Optical Character Recognition. Ten se udržel dodnes, přestože v dnešní době už probíhá rozpoznávání znaků vesměs v digitální rovině, nikoli opticko-mechanickou cestou.

První komerční využití - předplatné a kreditky

Jako první si aplikaci tohoto systému zakoupila firma Readers Digest, starší bratříček Gisma od firmy IMR jim pomáhal v oddělení pro předplatné. Významným odběratelem byla také kalifornská společnost Standard Oil Company, která OCR začala využívat pro čtení obtisknutých čísel kreditních karet na účtech.

Systém začal žít svým vlastním životem - jakmile se našlo jeho komerční využití, bylo o jeho budoucnost postaráno. Shepard a Lawless se později rozdělili. Zatímco Shepard si založil svoji firmu, Lawless se dostal do společnosti IBM, kde se prý zasloužil o další vynález - je mu připisováno autorství pojmu "software" ve smyslu programového vybavení počítače.

Poštovní směrovací číslo

Systémy pro rozpoznávání znaků používá americké pošta od roku 1965. Využívala přístroje navržené Jacobem Rabinowem, velice plodným americkým vynálezcem, který je kromě čtecích zařízení zodpovědný třeba také za vylepšení v magnetickém ukládání informací. Evropské pošty začaly systémů OCR využívat v roce 1971.

S čím se musí potýkat OCR

V dnešní době jsou již OCR programy rozšířené i mezi běžné uživatele. Jedná se zpravidla o software, který analyzuje obrázek a snaží se v něm rozpoznat text, který pak v co nejvěrnější podobě uloží do editovatelného formátu (TXT, RTF, DOC apod.). Pokročilejší aplikace umí uložit i tabulky, zachovat řezy písma nebo vložit obrázky.

Právě různá písma a grafické prvky rozpoznávání velice znesnadňují. Další zádrhele mohou vyvstat, pokud je text nakloněn, případně nekvalitně reprodukován či nasnímán. Kromě toho jsou v některých písmech skupiny písmen, která mají tendenci tvořit nerozlučné dvojice, čímž opět znesnadňují rozpoznání. Známou takovou dvojicí je "rn", které velice připomíná písmeno "m".

reCAPTHCA - ukázka

Pak nastupuje srovnání slov se slovníkem daného jazyka - program (např.) v pravděpodobnostech vyjádří různé hodnoty pro různá písmena, a bude hledat, které ze slov by nejlépe odpovídalo. Zde přicházejí ke slovu například neuronové sítě, které jsou schopné se učit a tak se postupně zlepšovat (pokud jim ovšem někdo označí, zda byl jejich výstup kvalitní, případně kde byl chybný). Technologie vylepšující OCR o "inteligentní" schopnosti se někdy schovávají pod souhrnný název ICR.

Další možností je gramatická analýza textu - znalost toho, zda bude následovat příslovce nebo přídavné jméno, se pro správné rozpoznání také hodí. Dvojnásob to platí u rozpoznávání rukou psaného textu, který často vůbec neobsahuje dostatek informací na to, aby mohl být správně přepsán bez určitého "domýšlení si". To člověk dělá prakticky podvědomě, pro počítač je to ale těžká zkouška.

popisek Lidé s tím počítači pomáhají
reCaptcha -  učíme počítače číst

Skenování knih a knihoven

Nelze psát o skenování nebo OCR a nezmínit ambiciózní projekty typu Gutenberg.orgLive Books Search nebo Google Books. Objemy, které tyto iniciativy skenují, se vymykají běžným užitím. Např. Google má v plánu naskenovat něco kolem padesáti milionů knih z univerzitních knihoven po celém světě, aby se tak více přiblížil svému cíli "učinit všechny informace na světě dostupné a prohledávatelné."

K takovému množství samozřejmě nelze použít lidskou práci - naskenovat knihovnu za použití domácího stolního skeneru by trvalo nezměrně dlouho. Navíc by to bylo i velice nešetrné ke knihám. Zvláště pro univerzitní knihovny, které mají často jediný přeživší exemplář dané knihy, je bezpečnost svazků na prvním místě. Zástupcům Google proto trvalo velice dlouho, než získali souhlas k naskenování knih za použití stroje.

 APT BookScan 1200
APT BookScan 1200 zvládne nasnímat až 1200 snímků za hodinu v rozlišení 16.6 Mpix


Naskenované knihy pak projdou OCR programem, který jednotlivým obrázkům přiřadí text a učiní je tak prohledávatelnými. To je obrovská výhoda, která umožňuje prohledávat knihy podobně, jako dosud pouze počítačové dokumenty. "Dokonce ještě před tím, než jsme spustili Google, snili jsme o tom učinit to obrovské množství informací, které je tak nádherně uspořádané v knihovnách, učinit prohledávatelné on-line," vzpomíná Larry Page, spoluzakladatel společnosti Google. Jak je vidět zde, zatím se jim to daří.

Jak hledat v Google Books

Na books.google.com zadáte jméno knihy, autora nebo třeba jen text, který v knize hledáte:

Google Books - vyhledávání

V dané knížce můžete i vyhledávat. Pokud je kniha chráněná autorským právem, zobrazí se vám pouze úryvky z knihy spolu s číslem stránky:

Google Books - úryvky

Pokud si najdete knihu, která je v public domain nebo je z jiného důvodu k dispozici celá, můžete s ní zacházet téměř libovolně. Prohlížet si ji, vyhledávat v ní, stáhnout si ji v PDF formátu:

Google Books - Picture of Dorian Gray


Google tento týden oznámil, že otevírá svůj systém Google Books i pro české vydavatele. České knihy jsou ale v systému už dávno:

Google Books - Slovan


Pevně doufám, že se k problematice skenování knížek (a knihoven) ještě na Technetu vrátíme. Ostatně i samotné skenování takového objemu dat je vždycky běh na dlouho trať (desítky let přinejmenším). Každý den navíc vznikají desítky knih nových. Ty jsou však již psány v elektronické podobě a zapojení OCR nevyžadují.

Pište prosím čitelně

Dnes je OCR používáno v mnoha oblastech a pravděpodobně jste na něj narazili i vy, ať už při skenování dokumentu do počítače, nebo při vyplňování dotazníku "čitelným hůlkovým písmem." Dejte si příště záležet a písmenka dotahujte. Musíme mít s počítači strpení. Číst se učí teprve 80 let...

Odkazy

Autor:




Hlavní zprávy

Další z rubriky

Test Boeingu 747 přestaveného na hasicí letoun
Největší hasičské letadlo světa nyní zasahuje v Kalifornii

Boeing 747 patří mezi největší letadla světa a má za sebou nejednu nelehkou službu. Jeho speciální verze již několik let zasahuje u velkých požárů.  celý článek

WD MyPassport SSD
Gigabajt za pět sekund. Externí 1TB SSD se vejde do kapsičky u košile

Maličký lehoučký externí disk s elektronickou pamětí pojme až 1TB dat a ukládat i číst je můžete extrémně vysokou rychlostí. Vyzkoušeli jsme nový WD MyPassport...  celý článek

Poškozený motor číslo 4 - Air France let číslo 66
Cestující zažili děsivé okamžiky, Airbusu se nad oceánem obnažil motor

V Kanadě nouzově přistál francouzský Airbus A380-800 s rozbitým motorem. Za letu nad Atlantickým oceánem se dopravnímu letadlu poškodil jeden z motorů. Nikdo z...  celý článek

Akční letáky
Akční letáky

Všechny akční letáky na jednom místě!

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.