Zklamání od Wikipedie: vyhledávač řízený lidmi je zatím v plenkách

Wikia Search od Jimmyho Walese, zakladatele oblíbené encyklopedie Wikipedia.org, přišla na internet s ambiciózními cíli. První verze ale uživatele zklamala - výsledky nejsou relevantní, nezvládá diakritiku a dokonce ani příliš neodkazuje na Wikipedii. Kde je chyba?

Wikia.com provozuje kromě vyhledávače také stovky nejrůznějších wiki-stránek | foto: Pavel Kasík - Technet.cz

Wikipedia.org, otevřená encyklopedie, kterou může kdokoli editovat, patří již několik let k zářným příkladům fungujícího projektu. Překonala pomalé a zdlouhavé začátky a stala se jednou z deseti nejnavštěvovanějších stránek. V jistém smyslu zcela změnila náhled na uživateli generovaný obsah, a přes kritiku (např. za zneužitelnost nebo pro nedostatečné citování zdrojů) patří Wikipedia.org k pozitivně hodnoceným projektům.

popisek Více o historii Wikipedia.org
Objevte odpověď na většinu otázek na Wikipedii

Jimmy Wales, její zakladatel, se rozhodl své štěstí vyzkoušet i v oblasti vyhledávačů. Internetové vyhledávání je stále využívanější službou a dá se předpokládat, že s nárůstem dat na internetu bude jeho úloha jedině podstatnější. Odvětví vyhledávačů dominuje velká trojka: Google, Yahoo a MSN (nově Live.com). Když tedy Jimmy Wales o Vánocích 2006 oznámil, že jeho společnost Wikia přijde s vlastním vyhledávačem, jehož cílem je této trojce konkurovat, vyvolalo to ohlas a velká očekávání.

Veřejná alfa verze

7. ledna 2008 se Wikia Search konečně ukázal veřejnosti. Už od loňských Vánoc se na technologii těšili technologičtí nadšenci z celého světa. Potenciál lidské síly Wikipedie a strojové analýzy webu se skutečně nezdá zanedbatelný. Jak to tedy vypadá?

 Wikia.com - Homepage

Vyhledávání nenajdete na www.wikia.com ...

 Wikia.com - Alpha Search

... ale na stránkách http://alpha.search.wikia.com

Minimalistický design, na kterém je těžko co hodnotit. Nedočkavě zadáme slovo k vyhledávání a čekáme, jaké změny a vymoženosti na nás "lidmi řízené open-source vyhledávání" přichystá.

 Wikia.com - Prague

Vyhledávání slova "Prague"

A je tu první zklamání. Tam, kde klasické vyhledávače nabídnou odkaz na oficiální stránky města Praha nebo na Pražskou informační službu, jsou na Wikii (při defaultním nastavení) samé komerční stránky, jejichž informační hodnota je zanedbatelná. První použitelný výsledek jsem našel až na dvacáté pozici.

Co mě asi nejvíce zarazilo, je, že na Google.com i Live.com figuruje na vyhledávací slovo na prvním místě odkaz na heslo Prague v anglické Wikipedii.org. Na tento dotaz to spolu s výše zmíněnými oficiálními stránkami považuji za naprosto relevantní výsledek. Proč, ptám se, nezobrazuje Wikia.com výsledek ze "svojí" Wikipedie výše? Kdyby výše, on není ani v první stovce výsledků.

Open-source komunitní vyhledávač

Podobně se ptají recenzenti z technickým magazínů po celém světě. Je to pochopitelné, mnoho uživatelů je zklamaných kvalitou vyhledávání na Wikipedii.org (často je lepší prohledávat Wikipedii pomocí jiného vyhledávače) a doufali, že Wikia přinese přinejmenším kvalitní prohledávání Wikipedie.org.

Ambice vyhledávače Wikia jsou však větší a proto se nejspíš nechce na Wikipedii vázat. Prvek, který se ale Wikipedií inspiroval, je tzv. "Mini Article about" (mini článek o) na začátku vyhledávání. Pokud někdo hledal přesně to samé, co vy, mohl takový článek vytvořit nebo upravit. Editace probíhá prakticky stejně, jako na Wikipedii.

 Wikia.com - Barack Obama

Vyhledávání demokratického kandidáta, který už svůj Mini Article má. Obsahuje velmi stručné informace...

 Wikia.com - Barack Obama nové
... stačil ale den, aby se článek rozšířil o aktuální výsledky a fotku.
 Wikia.com - Spam

Editace je podobná té na Wikipedii. Vtipné je varování před spamem: "

Tvorba miničlánku je opravdu snadná, zvláště, pokud máte nějaké zkušenosti z Wikipedie. Pak je skutečně možné, že člověk denně napíše i desítky takovýchto miničlánků.

Nápad s Mini Article je ve skutečnosti výborný a může mnohé usnadnit, u vysoce specifických dotazů (jakých je obrovské množství. Jak uvádí viceprezident Google, pětina až čtvrtina všech dotazů denně jsou dotazy naprosto nové. V těch Mini Article vůbec nepomůže.

Další, zatím nefunkční funkce, umožňuje hvězdičkami ocenit jednotlivé výsledky. Zatím je tato funkce v testovacím provozu a výsledky se nikam neukládají. Podle mého je to špatný tah - nadšence to pouze odradí od hodnocení.

Je ale otázka, jací nadšenci budou na Wikii.com tvořit obsah. U Wikipedie to bylo něco jiného. Úkol od začátku vytvořit encyklopedii a komunitně ji upravovat zní sice obrovsky, ale každý může začít s nějakou oblastí a výsledkem jsou reálné, postupně se organicky rodící články. Na Wikii jsou výsledky práce pomíjivější (zkuste někomu říci: podívej se na miničlánek u Prague, ten jsem psal já) a navíc je u vyhledávače potřeba, aby byly výsledky neustále aktuální. K tomu je právě ideální strojová analýza a matematické řazení výsledků.

Wikia.com - nutch

O řazení se stará Nutch, open-source projekt snažící se o vyhledávač. Vpravo můžete přepínat mezi několik soubory indexovaných dat - velice zajímavá funkce, nicméně paradoxně čím větší index, tím horší výsledky zatím Wikia (subjektivně) nabízí.

Češi budou mít k Wikia Search ještě další námitku: česká diakritika nefunguje. To je samozřejmě odpustitelné, když vezmeme v úvahu, jak malé procento celosvětového webu je v českém jazyce, nicméně Wikia si dělá ambice na celosvětový vyhledávač, a úvodní stránka má i svou českou verzi. Je tedy velice nešťastné uvést ji do provozu s nefunkční diakritikou - Češi tak nemůžou pořádně přispívat, protože ačkoli v miničláncích české znaky fungují, ve vyhledávání nikoli. Je to škoda i proto, že se nejspíše jedná o nějakou chybu v kódování dat nebo v zacházení s nimi, a taková chyba by snad šla opravit. Snad se tak brzy stane.

Příliš brzy na posuzování

Není divu, že se na Wikii sesypalo mnoho kritiky, a to jak z úst technických redaktorů, tak z klávesnic blogerů z celého světa. Jim Wales se k této kritice vyjádřil pro magazín Wired

Když jsem spustil Wikipedii, napsal jsem na začátek stránky "Wikipedia, otevřená encyklopedie". Ten den by se kdokoli, kdo by tu stránku recenzoval, musel smát. Co to má být? Vždyť tu nic není. To není encyklopedie, to je prázdná stránka s divným způsobem editace.

Takže srovnání [vyhledávače Wikia] s Googlem v den jedna je pomýlené. Google nespustil projekt vytvořit lidmi poháněný vyhledávač, spustil vyhledávač založený na nových chytrých algoritmech. Takže nemuseli čekat, až přijdou lidé a něco vytvoří.

Dokonce ještě nejedeme na skutečných indexovaných datech, jenom na těch poskytnutých třetí stranou. Ano, vyhledávač [Wikie] teď nestojí za nic. Ale o to nejde. Jde o to, že vytváříme něco odlišného.

When I launched Wikipedia, I wrote at the top of the first page "Wikipedia, the free encyclopedia". On that day, anyone reviewing it would have laughed. What's this? There's nothing here! This is not an encyclopedia, it is an empty website with some funny editing syntax!

So the comparison to Google on day one is just mistaken. Google didn't launch a project to build a human-powered search engine, they launched an algorithmic search engine with a clever new idea. So they didn't have to wait for the humans to come in and start building it.

We aren't even running with a real index yet, just a placeholder index. Yeah, the search sucks today. But that's not the point. The point is that we are building something different.


A to je myslím podstata věci. Protože se nejedná o chladné počítače a propracované algoritmy, ale o lidi, nemůžeme vlastně vůbec předvídat, co z tohoto projektu nakonec bude. Můžeme spekulovat o tom, že by bylo lepší počkat s uveřejněním až do chvíle, kdy budou výsledky použitelnější. Můžeme vyčítat, že je open-source vyhledávač náchylný ke spamu, zatímco utajené algoritmy s ním mohou účinněji bojovat, to se ovšem těžko prokáže jinak, než praxí.

Můžeme vypočítat mnohé, co Wikii chybí, ale ambice a nadšení to zřejmě nejsou. Jestli se najde dostatek nadšenců na to, aby obětovali svůj čas za lepší vyhledávání, může být Wikia Search časem použitelným vyhledávačem, který bude v některých případech lépe vybaven, než dnešní vyhledávače. Zatím tomu tak sice zdaleka není, ale argument s Wikipedií ze dne jedna nás nabádá, abychom ještě pár let vydrželi.

Odkazy

Autor:
  • Nejčtenější

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

v diskusi je 125 příspěvků

26. března 2024

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo...

Z jaderné triády zbyly Britům už jen ponorky. A ty musejí posílit

v diskusi je 76 příspěvků

27. března 2024

Jadernou triádu tvoří strategické bombardéry s jadernými zbraněmi, mezikontinentální balistické...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Hlučínsko patří nám. Před 100 lety byl podepsán definitivní protokol o hranici

v diskusi je 30 příspěvků

28. března 2024

Před 100 lety definitivně skončily tahanice o československo-německé hranice. 28. března 1924 byl...

Rusko zastavilo odlet na ISS s první Běloruskou, letět měla i Američanka

v diskusi je 50 příspěvků

21. března 2024  10:23,  aktualizováno  14:26

Ve čtvrtek 21. března se necelých deset minut před půl třetí odpoledne měla vydat na Mezinárodní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Načapali jsme otesánka, který se velkého sousta nezalekne. Boeing 747-400F

v diskusi je 8 příspěvků

21. března 2024

Poté, co na Letiště Václava Havla Praha přestaly v barvách Qatar Airways létat nákladní Boeingy...

Dočasná raketa se po téměř 70 letech loučí. Nyní startuje naposledy

v diskusi jsou 3 příspěvky

28. března 2024  15:36

Přímý přenos Tento čtvrtek stojí na startovací rampě mysu Canaveral poslední potomek raket Thor, nosič Delta IV...

Američané odepsali modul, který je vrátil po půl století na Měsíc

v diskusi je 20 příspěvků

28. března 2024,  aktualizováno  11:41

Od začátku letošního roku je na Měsíci a kolem něj poměrně rušno. Vedle řady sond, které zamířily...

Hlučínsko patří nám. Před 100 lety byl podepsán definitivní protokol o hranici

v diskusi je 30 příspěvků

28. března 2024

Před 100 lety definitivně skončily tahanice o československo-německé hranice. 28. března 1924 byl...

Úspěšný let prototypu XB-1 vrací do hry cestování nadzvukovou rychlostí

v diskusi je 34 příspěvků

27. března 2024  17:17

Po více než dvaceti letech, od ukončení provozu letounu Concorde, se možná opět dočkáme nadzvukové...

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Rána pro britskou monarchii. Princezna Kate má rakovinu, chodí na chemoterapii

Britská princezna z Walesu Kate (42) se léčí s rakovinou. Oznámila to sama ve videu na sociálních sítích poté, co se...

Smoljak nechtěl Sobotu v Jáchymovi. Zničil jsi nám film, řekl mu

Příběh naivního vesnického mladíka Františka, který získá v Praze díky kondiciogramu nejen pracovní místo, ale i...

Rejžo, jdu do naha! Balzerová vzpomínala na nahou scénu v Zlatých úhořích

Eliška Balzerová (74) v 7 pádech Honzy Dědka přiznala, že dodnes neví, ve který den se narodila. Kromě toho, že...

Pliveme vám do piva. Centrum Málagy zaplavily nenávistné vzkazy turistům

Mezi turisticky oblíbené destinace se dlouhá léta řadí i španělská Málaga. Přístavní město na jihu země láká na...

Kam pro filmy bez Ulož.to? Přinášíme další várku streamovacích služeb do TV

S vhodnou aplikací na vás mohou v televizoru na stisk tlačítka čekat tisíce filmů, seriálů nebo divadelních...