Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Diskuse k článku

Jak se počítač naučil číst milion knížek ročně

Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Upozornění

Litujeme, ale tato diskuse byla uzavřena a již do ní nelze vkládat nové příspěvky.
Děkujeme za pochopení.

Zobrazit příspěvky: Všechny podle vláken Všechny podle času

Roman

hmm

zajímavá mašinka ten scanner na obrázku...

0/0
24.11.2007 17:20

asdf

diky

vyborne napsany clanek ktery  dusledne prozkoumava tematiku. vyjimka na iDnes. dekuji autorovi!

0/0
24.11.2007 15:25

FK

OCR

Zajimavy clanek co se tyce historie, diky za nej. V dnesni dobe pocitacu skutecne neni problem rozpoznavat pismena pokud znate vzory. Mozna by se sluselo rict, ze rozpoznavani podle podobnosti vzoru je ten nejhloupejsi zpusob ktery se da pouzit. Vetsina uspesnych softwaru pouziva topologicke rozpoznavani .... OCR tak jak je zde popisovano se da rozpoznat s uspesnosti pres 99% zvlast s pouzitim pridavneho slovnikoveho a jazykoveho checku. Daleko zajimavejsi je rozpoznavani rucne psaneho textu :-) tam je situace daleko horsi ....

0/0
24.11.2007 15:03

funtom

Skenování knih v ČR

No, článek je hezký, jen bych chtěl touto cestou poprosit autora, aby třeba ve volném pokračování popsal trochu tuto záležitost z českého prostředí. Pokud vím, tak ve strahovské knihovně se skenováním zabývali již před několika lety - snad ho realizovala nějaká fa z Berouna. Další skenování přibylo po povodních v r. 2002, kdy bylo zaplaveno několik archivů. Spolupracují tyto projekty s Googlem?

Předem děkuji.

0/0
24.11.2007 10:28

Pavel Kasík - Technet.cz

Re: Skenování knih v ČR

Díky. Do knihovny se chceme podívat již delší dobu, snad bude vaše povzbuzení ta poslední potřebná kapka :-)

0/0
24.11.2007 10:57

Montrealer

Není pravda, že...

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard na rozlomení kódu z japonského šifrovacího stroje Purple.

Takzvaný japonský Purpurový kód (Purple code) byl tajně rozluštěn

předním americkým kryptografem židovského původu Williamem Friedmannem již před vstupem USA do války v roce 1941. Američané tedy znali japonské záměry už před japonským útokem na Pearl Harbour. Proč tam tedy Japonci Američany překvapili, toť otázka, která od té doby zaměstnává přední vojenské historiky.

0/0
24.11.2007 7:25

mr.detlef

Re: Není pravda, že...

žeby je tam nechali proto aby mohli vstoupit amíci do války v usa? prostě jako aby nezaútočili první? zároveň si nechat zničit několik lodí aby byly další zakázky pro armádu a vydělaly na tom zbrojní firmy? řekl bych že to můžou být odpovědi - stejně jako na 11. 9. 2001 - kdy si amíci nechali zrušit dvojčata aby měli důvod zaútočit na afgahnistán a poté i irák (vše kvůli levné ropě), země jsou dnes natolik destabilizované, že ustavit tam vládu a zabránit dalšímu zabíjení je téměř nemožné... ale přesto všechno (korea, vietnam,...) je to náš vzor a partner, kterému lezeme do prde.le

0/0
24.11.2007 8:00

x

Re: Re: Není pravda, že...

"měli důvod zaútočit na afgahnistán "

Na Afganistan nezautocili - proste jen podporili opozici proti  Talibanu a ten se sam rozpadl  - je to zcela jiny pripad nez Irak - proti hnuti Taliban bylo i tam velke mnozstvi lidi.

0/0
24.11.2007 15:52

x

Re: Re: Není pravda, že...

" ale přesto všechno (korea,"

Mate zcela zkreslne informace - v Koreji bojovali jednotky OSN proti Severni Koreji materialove podporovanou SSSR. Proste se Jizni Korea nehodlala dostat pod nadvalu Severni Koreje a  tak si zavolali sve spojence na pomoc.

0/0
24.11.2007 16:03

x

Re: Re: Není pravda, že...

", že ustavit tam vládu a zabránit dalšímu zabíjení je téměř nemožné... "

V Afaginistanu je normalni vladu jen cast uzemi je pod spravou kmenovych vudcu - jenze takhle to tam bylo vzdy...

0/0
24.11.2007 16:05

x

Re: Re: Není pravda, že...

" vietnam,...) "

Pomoc vlade Jizniho Vietnamu - sama si je zavolala - jenze ta bohuzel mela sve ruzne sve probelmy a proto jeji popularita nebyla mezi obyvatelstvem prave nejvetsi.  

0/0
24.11.2007 16:08

x

Re: Re: Není pravda, že...

"stejně jako na 11. 9. 2001 - kdy si amíci nechali zrušit dvojčata"

Neexistuje dukaz , ze meli letadla chtit pouzit jak zbran proti budovam - pouze byl zjisten ze se chysta unos letadel, ale predpokladalo se ze pujde o normalni unos s pozadvky unoscu na proptusteni svych spolubojovniku.

0/0
24.11.2007 16:13

jezko

Re: Re: Re: Není pravda, že...

Myslim, ze je dost materialu na to (poukazali na to v niekolkych dokumentoch, ktore som videl), aby sa uspesne dali spochybnit zavery vysetrovacej komisie, teda hlavne ten, ze dvojicky spadli po zasahu lietadlami.

Pad dvojiciek - spojenie prijemneho s uzitocnym - obrovsky poistny podvod (riadena demolacia budov, ktora mala vyzerat ako pad po teroristickom utoku) a vykonstruovany dovod na utok na Afghanistan. Viac dovodov na zvysenie podpory zbrojneho priemyslu.

Mrtvi boli vyhlaseni za obete terorizmu, a pritom ich zabili vlastni hnani tuzbou po okamzitom zisku.

0/0
26.11.2007 14:56

lapis

Re: Re: Není pravda, že...

Kde blb, tam nebezpečno. (Werich - neznáte?)

0/0
25.11.2007 15:41

Pavel Kasík - Technet.cz

Re: Není pravda, že...

Moje chyba, opraveno. Díky.

0/0
24.11.2007 9:29

x

Re: Není pravda, že...

Aby se udrzelo rozlustenui tajneho kod v tajnosti musi o tom vedet co nejmene lidi. A tak proste s tim pracovalo jen minimu lidi a to proste to nepredpokladalo.

Navic hlavne v USA byl proste velky odpor vstupu do valky a tak preventivni utok na Japonske lodstvo by neprichazel v uvahu.

A samotne pripravy na utok v Pearl Habor by zjistili Japonsti spioni a z utoku by proste seslo a navic by tajny kod v ramci opatreni proti dalsimu vyzrazeni by mohl byt zmenen.

0/0
24.11.2007 15:50

lbigmac

Re: Není pravda, že...

Já myslím, že to bylo dáno mixem národní hrdosti, arogance, politikaření, byrokracie, špatné komunikace, osobních chyb a především podcenění soupeře...

0/0
26.11.2007 12:30

Alcator

A samozřejmě nejnovější fígl opomenut

Jasně, nejdůležitější je popsat, jak to probíhalo před sto lety; za to o nejnovějším fíglu, který využívá "Human computing", ani zmínky. Chjo.

PROČ JE MF DNES TAKOVÁ BŘEČKA???

Nejnovější fígl: propojení rozpoznávání s "protispamovou" ochranou webových formulářů: Je nascanována kniha, scan je rozřezán na jednotlivá slova (mezery mezi slovy stačí). Uživatelům, kteří chtějí např. anonymně přispět do diskuze na nějakém frekventovaném serveru (resp. jednom z mnoha), je kromě políček pro jméno a text zobrazena dvojice slov z nascanované stránky s výzvou, aby do chlívečku opsali obě slova. Jedno slovo už systém "zná" (z dřívějška), druhé chce poznat. Člověk nemá problém poznat, o jaká dvě slova jde, a obě napíše (neví, které z nich systém zná a které ne); a systém při každém takovém použití získá přepis jednoho slova; pro vyloučení překlepů a schválností je každé slovo nabídnuto desítkám lidí, a jejich odpovědi jsou porovnávány.

To ani nemluvím o tom, že autor zapomněl uvést zkratku ICR...

0/0
24.11.2007 0:19

Pavel Kasík - Technet.cz

Re: A samozřejmě nejnovější fígl opomenut

Jsem za vaši reakci moc rád. Hlavně proto, že v podstatě všechno, co mi vytýkáte, jsem si sám opravil ještě před tím, než jsem si vaši reakci přečetl;-D

Článek ještě nebyl celý zkontrolovaný, a tak jsem jeho část doplnil až po půlnoci.

Nevím, jestli nás čtete pravidelně, ale o reCaptche jsme psali už v květnu. Její princip jste popsal velice pěkně, děkujeme. Do článku jsem vložil odkaz výrazněji, ten původní se asi ztratil.

0/0
24.11.2007 1:52

Fox_VK

Re: Re: A samozřejmě nejnovější fígl opomenut

Za takovéto nápady by lidé měli dostávat nobelovky...

0/0
24.11.2007 18:58







Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.