Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Centrum.cz likviduje spam pomocí statistiky

aktualizováno 
V prosinci konečně spustilo Centrum použitelný antispamový filtr, při stahování pošty do klientu na vašem počítači vám však Centrum doručí i odfiltrovaný spam. Naštěstí lze poštovní schránku nastavit tak, aby váš počítač byl detekovaného spamu ušetřen.
Freemail druhého nejnavštěvovanějšího českého portálu Centrum.cz nabízí svým uživatelům poměrně kvalitní antispamový filtr, jeho existenci však poměrně úspěšně tají. Místo toho inzeruje možnost přidávat jednotlivé e-mailové adresy a domény na černou listinu. Ve skutečnosti loví Centrum spam pomocí statistické analýzy textu. Identifikovaný spam je odfiltrován do zvláštní poštovní složky. Pokud stahujeme poštu z Centra do poštovního klientu na PC, můžeme si vybrat, zda máme zájem i o spam.

Portál Centrum.cz již před delší dobou halasně vypustil do světa zprávy o svém antivirovém řešení. Pokročilí uživatelé internetu však byli zklamáni, podle popisu na stránkách portálu měli pouze možnost ručně přidávat e-mailové adresy nebo celé domény (část e-mailové adresy za znakem @) spammerů na blacklist (černou listinu), přičemž kapacita blacklistu byla omezena na 100 adres nebo domén. Toto řešení bylo možno považovat za tragikomické, spammeři zpravidla e-mailové adresy falšují a jako odesilatele uvedou pokaždé někoho jiného.

Bayesovský filtr se učí, co je spam

Jedním ze slibných prostředků pro filtrování spamů se ukázala statistická analýza slov v textu. Pokud porovnáme texty legitimních e-mailových zpráv (někdy se jim říká ham, šunka) s texty otravné nevyžádané pošty (spam, podle obchodní značky levného pokrmu z mletého masa), zjistíme, že ve spamu se některá slova vyskytují častěji (Viagra, FREE a podobně). Můžeme tedy použít statistický filtr a učit jej na vzorcích obdržených e-mailů, do jaké míry je výskyt kterého klíčové slova v korelaci s legitimní pošty a spamu.

Podobné filtry většinou vycházejí z Bayesova teorému a zřejmě poprvé je navrhl Paul Graham ve svém textu A Plan for Spam. V češtině použití Bayesova teorému popsal Martin Mačok, Bayesův teorém si pak našel cestu do poštovních klientů (Mozilla Mail a Thunderbird, placená verze Eudory, Max OS X Mail) i do speciálních doplňků ostatních poštovních programů. Většina antispamových implementací Bayesova teorému dokonce umí průběžně učit sebe sama z obdržených vzorků pošty, zpřesňovat tak váhy přiřazené jednotlivým slovům a přidávat nová slova. Pokud tedy spammeři začnou nahrazovat slovo Viagra řetězcem znaků V1agra či dokocne V1@gr@, bayesovský antispamový filtr si na ně postupně přivykne

Bayesovské filtry trpí určitými nevýhodami (co když je obdržená zpráva tvořena pouze jedním velkým obrázkem), se kterými se však jejich tvůrci učí bojovat, mohou například analyzovat nejen text, ale i hlavičky e-mailu a obsah kódu HTML. Na druhou stranu mohou bayesovské filtry pracovat efektivněji než řešení na databáze poštovních serverů zneužívaných spammery či sdílení digitálních otisků spamů: Nemusejí komunikovat s centrálním serverem a vyhnou se ta prostojům způsobeným čekáním na odezvu serveru (při testech v redakci jsme u různých veřejných serverů naměřili zpoždění 0,2 až 1,7 sekund).

Velmi oblíbeným konkurentem bayesovských filtrů je expertní systém SpamAssassin, který je však vytvořen v jazyce Perl a analyzuje zprávy na základě regulárních výrazů a v důsledku toho je poměrně náročný na systémové zdroje. I SpamAssassin však nyní může volitelně jako jedno z kritérií používat bayesovský filtr.

Centrum má antispam už od prosince

V prosinci byl na freemailu portálu Centrum.cz konečně spuštěn opravdový antispamový filtr. Autoři si jako jeho základ vybrali právě Bayesův teorém, koeficienty pro jednotlivá slova jsou však stanovovány poloautomaticky a ručně korigovány. Při redakčním testu odchytil filtr na freemailu Centra zhruba 75 % spamů, naštěstí však jako spam neoznačil žádnou legitimní zprávu. Centrum.cz se nyní pokusilo ještě o antivirové řešení, kdy poštovní server zná názvy nejčastějších příloh s viry a rovnou je maže. Skutečnému antiviru se toto řešení nevyrovná, velmi však pomohlo při virových epidemiích posledních dní. Podle vyjádření Centra představovalo 30 % příchozí pošty viry, 40 % spam a pouhých 30 % legitimní zprávy.

Úspěchy antispamového filru na portálu Centrum.cz nám zůstávaly zpočátku utajeny, poštu jsme z testovací schránky stahovali pro další analýzu protokolem POP3 a server nás nechal stáhnout zprávy ze složky Doručená pošta i ze složky Spam. V menu nastavení schránky jsme sice navštívili položku nazvanou Spam filtr, filtrování nevyžádané pošty, ta nám však nabídla jen možnost přidat e-mailovou adresu na černou listinu. Námi hledaná funkce je ve skutečnosti pohřbena v menu Hlavní nastavení, kde si v položce POP3 - stahovat spamový koš můžeme vybrat, zda máme o stahování spamu zájem.

Komunikační strategie portálu Centrum.cz v posledních dnech doznala zásadních změn, marketingový ředitel Tomáš Kostrhoun rozeslal novinářům zajímavé informace o úspěších freemailu při filtrování spamů i e-mailových červů a umožnil nám kontakt s tvůrci antispamu Centra. Centrum.cz však zatím na svých stránkách existenci účinného bayesovského filtru tají.





Hlavní zprávy

Další z rubriky

Jak si zapamatovat heslo?
Složitá hesla byla 0my1, lituje autor návrhu. Časté změny spíše škodí

Hesla hrají v počítačové bezpečnosti nezastupitelnou úlohu. Bohužel si řada lidí volí složité a těžko zapamatovatelné řetězce typu p0L3dn!ce. Jeden z autorů...  celý článek

(Ilustrační snímek)
Upozornil MHD na ostudnou chybu. Maďarská policie ho zatkla jako „hackera“

Maďarský provozovatel hromadné dopravy v Budapešti zavedl nový systém pro placení lístků on-line. Narychlo spuštěné stránky však obsahovaly řadu zásadních...  celý článek

Samizdat.cz
Tipy na zajímavé weby: Najděte si nápad na nový byznys

V jakém oboru se vyplatí začít podnikat a jak je to s konkurencí ve vybraných částech ČR, prozradí mapa malého podnikání na Samizdat.cz. Dodavatele čerstvých...  celý článek

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.