Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


DNA bojuje proti spamu

aktualizováno 
O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New Scientist. Hrdinou příběhu je algoritmus Chung-Kwei, který dokáže úspěšně zachytit až 97 % spamu.

Na počátku byl software analyzující DNA založený na algoritmu označovaném jako Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální význam apod.

Thomasem J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D. Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei (jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž analyzovány normální e-maily a vzory nalezené paralelně v obou skupinách vyřazovány.

Algoritmus Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných" vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny. Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla samozřejmě ještě zvyšovat.

Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával (např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu DNA to struktury proteinů existuje totiž značná redundance - různé trojice (triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se spamem.

Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i Justin Mason, který vyvinul známý open source antispamový program SpamAssassin. Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy.

Autor: (pah), redaktor Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.





Hlavní zprávy

Další z rubriky

Aplikace Uber
Apple nechal Uberu vlastní funkci, která umí nahrávat obrazovku uživatelů

Apple umožnil taxikářské aplikaci Uber kvůli aplikaci pro hodinky iWatch snímat obrazovky mobilních zařízení.   celý článek

Skleněný most na hoře Yuntai
Infarktový žertík vyděsil turisty na skleněném mostě, kilometr nad zemí

Turisty v čínské provincii Hebei vyděsil žertík provozovatelů skleněného mostu na hoře Yuntai. Ve výšce více než 1 000 metrů nad zemí to musí být hrozivý...  celý článek

(Ilustrační snímek)
Největší krádež dat je nakonec ještě třikrát větší, přiznalo Yahoo

Americká internetová společnost Yahoo v úterý oznámila, že hackerský útok, jehož obětí se stala v roce 2013, se dotkl všech uživatelských účtů, dohromady tří...  celý článek

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.