Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu


DNA bojuje proti spamu

aktualizováno 
O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New Scientist. Hrdinou příběhu je algoritmus Chung-Kwei, který dokáže úspěšně zachytit až 97 % spamu.

Na počátku byl software analyzující DNA založený na algoritmu označovaném jako Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální význam apod.

Thomasem J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D. Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei (jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž analyzovány normální e-maily a vzory nalezené paralelně v obou skupinách vyřazovány.

Algoritmus Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných" vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny. Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla samozřejmě ještě zvyšovat.

Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával (např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu DNA to struktury proteinů existuje totiž značná redundance - různé trojice (triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se spamem.

Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i Justin Mason, který vyvinul známý open source antispamový program SpamAssassin. Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy.

Autor: (pah), redaktor Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.





Hlavní zprávy

Další z rubriky

Sídlo společnosti Google v Mountain View v Kalifornii (ilustrační snímek)
Google propustil programátora kvůli traktátu proti podpoře žen v IT

Programátor James Damore kritizoval ve svém dokumentu politickou korektnost a „levicové zkreslení“ společnosti Google. Vystoupil především proti tomu, aby se...  celý článek

VPN v ohrožení
Apple stáhl z Číny aplikace s VPN. Putin podepsal jejich zákaz v Rusku

Blokování přístupu na necenzurovaný internet je v některých zemích stále populárnější. Kvůli požadavkům čínských úřadů tak Apple stahuje VPN aplikace. V Rusku...  celý článek

Laura Millerová na konferenci Engage 2017 v Praze
Falešné zprávy všechny překvapily, přiznává šéfka Obamova digitýmu

Jak může nejmocnější muž planety, prezident USA, vystupovat na sociálních sítích přirozeně a lidsky? Jak si ze sebe má dělat legraci, a jak naopak upozornit na...  celý článek

Najdete na iDNES.cz



mobilní verze
© 1999–2017 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., se sídlem
Karla Engliše 519/11, 150 00 Praha 5, IČ: 45313351, zapsaná v obchodním rejstříku vedeném Městským soudem v Praze, oddíl B, vložka 1328. Vydavatelství MAFRA, a. s., je členem koncernu AGROFERT.