Premium

Získejte všechny články
jen za 89 Kč/měsíc

DNA bojuje proti spamu

O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New Scientist. Hrdinou příběhu je algoritmus Chung-Kwei, který dokáže úspěšně zachytit až 97 % spamu.

Na počátku byl software analyzující DNA založený na algoritmu označovaném jako Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální význam apod.

Thomasem J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D. Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei (jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž analyzovány normální e-maily a vzory nalezené paralelně v obou skupinách vyřazovány.

Algoritmus Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných" vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny. Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla samozřejmě ještě zvyšovat.

Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával (např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu DNA to struktury proteinů existuje totiž značná redundance - různé trojice (triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se spamem.

Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i Justin Mason, který vyvinul známý open source antispamový program SpamAssassin. Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy.

Autor: (pah), redaktor Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.

  • Nejčtenější

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 171 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 28 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 51 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví

v diskusi je 17 příspěvků

22. dubna 2024

Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...

Učili jsme se od alpských záchranářů, líčí pilot počátky letecké záchranky

v diskusi je 1 příspěvek

26. dubna 2024

Exkluzivně Za kniplem vrtulníku strávil přes 9 250 hodin. Stál u zrodu letecké záchranné služby, létal s...

Sphere jako osmý div světa? Zábavní komplex ve Vegas je technologický zážitek

v diskusi je 16 příspěvků

25. dubna 2024

Uvidíte v ní famózní obraz s nejvyšším rozlišením na světě, do uší zahraje sto šedesát tisíc...

POZOR VLAK: Slavíme půl století pražského metra, vznikla k tomu unikátní hra

v diskusi jsou 4 příspěvky

24. dubna 2024  7:29

Pro Československo, a především pro Prahu, to byl slavný den, devátého května 1974 byl slavnostně...

Jiří Horák obnovil ČSSD a dovedl ji do parlamentu. Se Zemanem si nerozuměl

v diskusi jsou 3 příspěvky

24. dubna 2024

Před 100 lety se narodil Jiří Horák, který po sametové revoluci pomáhal znovuobnovit sociální...

Akční letáky
Akční letáky

Všechny akční letáky na jednom místě!

Bývalý fitness trenér Kavalír zrušil asistovanou sebevraždu, manželka je těhotná

Bývalý fitness trenér Jan Kavalír (33) trpí osmým rokem amyotrofickou laterální sklerózou. 19. dubna tohoto roku měl ve...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Největší mýty o zubní hygieně, kvůli kterým si můžete zničit chrup

Možná si myslíte, že se v péči o zuby orientujete dost dobře, přesto v této oblasti stále ještě existuje spousta...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...

Za vytlačení z linky do Brna musí Student Agency zaplatit náhradu 21 milionů

Společnost Student Agency provozující autobusy a vlaky pod označením RegioJet musí zaplatit bývalému konkurentovi 21...