Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


Centrum.cz likviduje spam pomocí statistiky

aktualizováno 
V prosinci konečně spustilo Centrum použitelný antispamový filtr, při stahování pošty do klientu na vašem počítači vám však Centrum doručí i odfiltrovaný spam. Naštěstí lze poštovní schránku nastavit tak, aby váš počítač byl detekovaného spamu ušetřen.
Freemail druhého nejnavštěvovanějšího českého portálu Centrum.cz nabízí svým uživatelům poměrně kvalitní antispamový filtr, jeho existenci však poměrně úspěšně tají. Místo toho inzeruje možnost přidávat jednotlivé e-mailové adresy a domény na černou listinu. Ve skutečnosti loví Centrum spam pomocí statistické analýzy textu. Identifikovaný spam je odfiltrován do zvláštní poštovní složky. Pokud stahujeme poštu z Centra do poštovního klientu na PC, můžeme si vybrat, zda máme zájem i o spam.

Portál Centrum.cz již před delší dobou halasně vypustil do světa zprávy o svém antivirovém řešení. Pokročilí uživatelé internetu však byli zklamáni, podle popisu na stránkách portálu měli pouze možnost ručně přidávat e-mailové adresy nebo celé domény (část e-mailové adresy za znakem @) spammerů na blacklist (černou listinu), přičemž kapacita blacklistu byla omezena na 100 adres nebo domén. Toto řešení bylo možno považovat za tragikomické, spammeři zpravidla e-mailové adresy falšují a jako odesilatele uvedou pokaždé někoho jiného.

Bayesovský filtr se učí, co je spam

Jedním ze slibných prostředků pro filtrování spamů se ukázala statistická analýza slov v textu. Pokud porovnáme texty legitimních e-mailových zpráv (někdy se jim říká ham, šunka) s texty otravné nevyžádané pošty (spam, podle obchodní značky levného pokrmu z mletého masa), zjistíme, že ve spamu se některá slova vyskytují častěji (Viagra, FREE a podobně). Můžeme tedy použít statistický filtr a učit jej na vzorcích obdržených e-mailů, do jaké míry je výskyt kterého klíčové slova v korelaci s legitimní pošty a spamu.

Podobné filtry většinou vycházejí z Bayesova teorému a zřejmě poprvé je navrhl Paul Graham ve svém textu A Plan for Spam. V češtině použití Bayesova teorému popsal Martin Mačok, Bayesův teorém si pak našel cestu do poštovních klientů (Mozilla Mail a Thunderbird, placená verze Eudory, Max OS X Mail) i do speciálních doplňků ostatních poštovních programů. Většina antispamových implementací Bayesova teorému dokonce umí průběžně učit sebe sama z obdržených vzorků pošty, zpřesňovat tak váhy přiřazené jednotlivým slovům a přidávat nová slova. Pokud tedy spammeři začnou nahrazovat slovo Viagra řetězcem znaků V1agra či dokocne V1@gr@, bayesovský antispamový filtr si na ně postupně přivykne

Bayesovské filtry trpí určitými nevýhodami (co když je obdržená zpráva tvořena pouze jedním velkým obrázkem), se kterými se však jejich tvůrci učí bojovat, mohou například analyzovat nejen text, ale i hlavičky e-mailu a obsah kódu HTML. Na druhou stranu mohou bayesovské filtry pracovat efektivněji než řešení na databáze poštovních serverů zneužívaných spammery či sdílení digitálních otisků spamů: Nemusejí komunikovat s centrálním serverem a vyhnou se ta prostojům způsobeným čekáním na odezvu serveru (při testech v redakci jsme u různých veřejných serverů naměřili zpoždění 0,2 až 1,7 sekund).

Velmi oblíbeným konkurentem bayesovských filtrů je expertní systém SpamAssassin, který je však vytvořen v jazyce Perl a analyzuje zprávy na základě regulárních výrazů a v důsledku toho je poměrně náročný na systémové zdroje. I SpamAssassin však nyní může volitelně jako jedno z kritérií používat bayesovský filtr.

Centrum má antispam už od prosince

V prosinci byl na freemailu portálu Centrum.cz konečně spuštěn opravdový antispamový filtr. Autoři si jako jeho základ vybrali právě Bayesův teorém, koeficienty pro jednotlivá slova jsou však stanovovány poloautomaticky a ručně korigovány. Při redakčním testu odchytil filtr na freemailu Centra zhruba 75 % spamů, naštěstí však jako spam neoznačil žádnou legitimní zprávu. Centrum.cz se nyní pokusilo ještě o antivirové řešení, kdy poštovní server zná názvy nejčastějších příloh s viry a rovnou je maže. Skutečnému antiviru se toto řešení nevyrovná, velmi však pomohlo při virových epidemiích posledních dní. Podle vyjádření Centra představovalo 30 % příchozí pošty viry, 40 % spam a pouhých 30 % legitimní zprávy.

Úspěchy antispamového filru na portálu Centrum.cz nám zůstávaly zpočátku utajeny, poštu jsme z testovací schránky stahovali pro další analýzu protokolem POP3 a server nás nechal stáhnout zprávy ze složky Doručená pošta i ze složky Spam. V menu nastavení schránky jsme sice navštívili položku nazvanou Spam filtr, filtrování nevyžádané pošty, ta nám však nabídla jen možnost přidat e-mailovou adresu na černou listinu. Námi hledaná funkce je ve skutečnosti pohřbena v menu Hlavní nastavení, kde si v položce POP3 - stahovat spamový koš můžeme vybrat, zda máme o stahování spamu zájem.

Komunikační strategie portálu Centrum.cz v posledních dnech doznala zásadních změn, marketingový ředitel Tomáš Kostrhoun rozeslal novinářům zajímavé informace o úspěších freemailu při filtrování spamů i e-mailových červů a umožnil nám kontakt s tvůrci antispamu Centra. Centrum.cz však zatím na svých stránkách existenci účinného bayesovského filtru tají.





Hlavní zprávy

Další z rubriky

Nová dvoutisícová bankovka má na líci kosmodrom Vostočnyj, na rubu je most ve...
Chystá se ruská digitální měna. Kryptorubl nebudou uživatelé těžit

Digitální měna, která má poněkud jiná pravidla, než jsme si zvykli, vzniká v Rusku. Zcela pod kontrolou ji bude mít stát.  celý článek

Facebook po roce odkrývá, jakým způsobem mohlo Rusko ovlivnit americké...
PŘEHLEDNĚ: Facebook ukázal, jak jej během voleb zneužila ruská propaganda

Rusové si přes stovky prostředníků koupili v roce 2016 ohromné množství reklamy na Facebooku. Cílily na americké voliče v klíčových státech. Reklamy podle...  celý článek

FarmaNaDlani.cz
Tipy na zajímavé weby: Kde nakoupit na farmách, ukáže interaktivní mapa

Čím dál víc lidí zajímá, kde se dá nakupovat lokálně a ne od velkovýrobců či zahraniční produkty. Pěstitele a výrobce snadno najdete na mapě FarmaNaDlani.cz....  celý článek

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.