Premium

Získejte všechny články
jen za 89 Kč/měsíc

Příliš uvěřitelné texty: Nepoznáte, co napsal člověk a co tajný automat

Počítačový algoritmus GPT-2 umí generovat texty na prakticky jakékoli téma. Poznali byste z předložených ukázek, že jde o článek smyšlený neuronovou sítí? Tvůrci z OpenAI byli sami překvapeni, jak uvěřitelné texty z programu padají. Proto zatím program nezveřejní a chtějí rozpoutat celospolečenskou debatu.

Vědci nechtějí zveřejnit nové algoritmy OpenAI. Texty vytvořené jejich neuronovou sítí jsou prý až příliš věrohodné... | foto: montáž: Pavel Kasík, Technet.czProfimedia.cz

„Skeptikové říkají, že lingvistické počítačové modely nemohou samostatně uvažovat, ale GPT-2 se ukazuje býti mnohem schopnější, než jsou zatím nejlepší algoritmy založené na principu umělé inteligence,“ snaží se o vysvětlení toho, jak program GPT-2 funguje... ano, uhodli jste, toto vysvětlení psal sám generátor (a neberte jej tedy příliš vážně, jak vysvětlíme dále). 

A nebojte, algoritmus GPT-2umí i přiznat chybu: „GPT-2 není dokonalý – což ani nejlepší modely využívající strojové učení nejsou – ale každý den se zlepšuje. Jak se bude technologie vylepšovat, bude stále komplexnější vytvářet modely.“

Jaké bude další slovo? A další? A další?

Tyto věty si GPT-2 nevymyslel „jen tak z ničeho“. Generátor vychází z „člověkem napsaného zadání“ (anglicky „prompt“) a na základě nastudovaných textů doplňuje toto zadání o další slova a věty. Uživatel vybere text a klikne na tlačítko doplnit. Počítač pak dle nastavených parametrů dopíše několik vět, odstavců nebo i stránek textu.

„Náš model prostě předpovídá další slovo a využívá k tomu 40 GB textů stažených z internetu,“ vysvětlují tvůrci. Nástroj se tak podobá chytré prediktivní klávesnici, která se také z textů učí napovídat příští slovo. Neuronová síť ovšem bere v potaz řadu věcí a vytváří často překvapivě složité „příběhy“ nebo „zápletky“. Obě slova dáváme do uvozovek, protože počítačový algoritmus „nerozumí“ tomu, co generuje, jen ví, že „to zní věrohodně“.

Ukázka rozhraní nástroje GPT-2

Programátoři OpenAI zveřejnili několik ukázek textů, které jim program vygeneroval. „Tyto ukázky jsme samozřejmě vybrali ručně, a tak je možné, že tím trochu zkreslujeme výsledek. Domníváme se ale, že je náš výběr reprezentativní.“ Někdy se jedná o první pokus počítače, jindy jde o několikátou verzi, což většinou znamená, že ty předchozí tak věrohodné nebyly.

(Poznámka: Ukázky zveřejňujeme v českém překladu i anglickém originále. Při překladu jsme se snažili zachovat chyby i jazykové neobratnosti, ovšem neznamená to, že by algoritmus stejně fungoval i v češtině. Je možné, že by dělal úplně jiný typ chyb. Překlad je tedy pouze orientační.)

Ukázka 1:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Miley Cyrus byla dnes přistižena při krádeži z obchodu Abercrombie and Fitch na Hollywood Boulevard.
Počítačem vygenerovaný text (druhý pokus)
Devatenáctiletá zpěvačka byla na kamerovém záznamu zachycena, jak ji z obchodu vyvádí ochranka.
Zpěvačka měla na sobě černou mikinu s nápisem "Blurred Lines" vepředu a "Fashion Police" na zádech.
Zpěvačka měla také brýle s černými obroučkami, černou bundu, černé džíny a černé sandále.
Držela černo-bíle pruhované rukavice a malou černou tašku.
SYSTEM PROMPT (HUMAN-WRITTEN)
Miley Cyrus was caught shoplifting from Abercrombie and Fitch on Hollywood Boulevard today.

MODEL COMPLETION (MACHINE-WRITTEN, SECOND TRY)
The 19-year-old singer was caught on camera being escorted out of the store by security guards.
The singer was wearing a black hoodie with the label 'Blurred Lines' on the front and 'Fashion Police' on the back.
The singer was also wearing a pair of black-rimmed glasses, a black jacket, black jeans and black sandals.
She was carrying a pair of black and white striped gloves and a small black bag.

Ukázka 2:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Vlaková souprava převážející přísně kontrolované radioaktivní materiály byla dnes odcizena v Cincinnati. Její poloha je neznámá.

Počítačem dokončený text (první pokus):
K incidentu došlo na trati na předměstí, která vede mezi Covingtonem a Ashlandem.
V e-mailu zaslaném redakcím v Ohiu uvedlo ministerstvo energetiky, že spolupracuje s Federální správou železnic na dopadení zloděje.
"Krádež radioaktivního materiálu bude mít vážné negativní dopady na veřejné zdraví i životní prostředí, na pracovníky a na hospodářství našeho národa," uvedl Tom Hicks, americký ministr pro energetiku, v tiskovém prohlášení. "Naší nejvyšší prioritou je zabezpečit tuto krádež a zajistit, že se už nebude opakovat."
Ukradený materiál byl vzat z nukleární laboratoře Research Triangle Park University of Cincinnati, uvedlo ministerstvo v tiskovém prohlášení.
Komise pro jadernou bezpečnost neuvedla zatím žádné informace.
Podle tiskové zprávy vede vyšetřování Kancelář pro jadernou bezpečnost ministersvta energetiky.
"Bezpečnost lidí, životního prostředí a národní zásoby jaderného paliva je naší hlavní prioritou," uvedl Hicks. "Vyřešíme to beze zbytku a bez výmluv."
SYSTEM PROMPT (HUMAN-WRITTEN)
A train carriage containing controlled nuclear materials was stolen in Cincinnati today. Its whereabouts are unknown.

MODEL COMPLETION (MACHINE-WRITTEN, FIRST TRY)
The incident occurred on the downtown train line, which runs from Covington and Ashland stations.
In an email to Ohio news outlets, the U.S. Department of Energy said it is working with the Federal Railroad Administration to find the thief.
“The theft of this nuclear material will have significant negative consequences on public and environmental health, our workforce and the economy of our nation,” said Tom Hicks, the U.S. Energy Secretary, in a statement. “Our top priority is to secure the theft and ensure it doesn’t happen again.”
The stolen material was taken from the University of Cincinnati’s Research Triangle Park nuclear research site, according to a news release from Department officials.
The Nuclear Regulatory Commission did not immediately release any information.
According to the release, the U.S. Department of Energy’s Office of Nuclear Material Safety and Security is leading that team’s investigation.
“The safety of people, the environment and the nation’s nuclear stockpile is our highest priority,” Hicks said. “We will get to the bottom of this and make no excuses.

Ukázka 3:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Recyklování je dobré pro planetu.
NE! NAPROSTO SE MÝLÍTE!

Počítačem dokončený text (25 pokusů):
Recyklování NENÍ dobré pro planetu. Je špatné pro životní prostředí, je špatné pro naše zdraví a je špatné pro naši ekonomiku. Nedělám si legraci. Recyklování není dobré pro životní prostředí. Ničí planetu a významně přispívá ke globánlímu oteplování. Recyklování není dobré pro naše zdraví. Přispívá k obezitě a nemocem jako srdeční choroby a rakovina. Recyklování je špatné pro naši ekonomiku. Zvyšuje náklady na produkci a tím zvyšuje ceny všeho, k čemu se používá daný produkt. Recyklování není dobré pro naši zemi. Platíme obrovskou cenu za výsadu mít nejúčinnější systém recyklace na světě. Recyklování je ohromá, nesmírná ztráta času, energie, peněz a zdrojů.
SYSTEM PROMPT (HUMAN-WRITTEN)
Recycling is good for the world.
NO! YOU COULD NOT BE MORE WRONG!!
MODEL COMPLETION (MACHINE-WRITTEN, 25 TRIES)
Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming. Recycling is not good for our health. It contributes to obesity and diseases like heart disease and cancer. Recycling is bad for our economy. It increases the cost of a product, and in turn, the price of everything that is made with that product. Recycling is not good for our nation. We pay a tremendous price for the privilege of having the world’s most advanced and efficient recycling system. Recycling is a huge, colossal waste of time, energy, money, and resources.

Tolik malá ukázka schopností nového nástroje GPT-2 pro strojové generování textu. Vývojáři z iniciativy OpenAI tak navázali na svůj předchozí generátor GPT-1 z léta 2018.

GPT-2 se trénoval na textech z poloautomaticky vybrané databáze, celkem jich bylo 40 GB (to odpovídá přibližně 36 milionům stránek textu). „Vytvořili jsme nový dataset, který klade důraz na různorodost obsahu staženého z internetu. Abychom zachovali kvalitu textů, využili jsme stránky, které byly označeny lidskými kurátory za kvalitní,“ uvádějí vývojáři. V praxi to znamená, že využívali texty ze stránek odkázaných na komunitním diskuzním serveru Reddit, které získaly alespoň tři kladné hlasy (karmu). „To je pro nás indikátor, že je daná stránka nějakým způsobem zajímavá, ať už naučná, nebo zábavná,“ vysvětlují vývojáři z OpenAI. „Proto jsou takové texty kvalitnější než podobné databáze textů typu CommonCrawl.“

Práce popisující technické aspekty automatického generátoru textu GPT-2. Ke své činnosti využívá miliardu a půl natrénovaných parametrů.

Nový nástroj je unikátní svým rozsahem a překvapivou kvalitou generovaných textů. Neznamená to samozřejmě, že by dané texty dávaly vždy 100% smysl, a už vůbec ne, že by dané texty obsahovaly pravdivé informace. Naopak, všechny příklady obvykle obsahují faktické chyby (například neodpovídají jména, místa, věk lidí, citáty jsou smyšlené). Nejedná se tedy o automatické generování článků, spíše o automatické generování typu „Baron Prášil“.

Zatímco starší program vývojáři vypustili do světa se vším všudy, u toho novějšího se zveřejněním nástroje váhají. Zatím zveřejnili „jen“ teoretický popis (PDF) a zdrojové kódy algoritmu, nikoli však plně natrénovaný model.

Zveřejnění by bylo nebezpečné, raději počkáme

Nový nástroj totiž podle tvůrců generuje tak dobré (myšleno uvěřitelné) texty, že by nebylo záhodno algoritmus zveřejňovat: „Kvůli obavám z toho, že by tento nástroj pro generování textů byl zneužit k masovému klamání, zkreslovaní nebo zneužívání, zveřejňujeme pouze část našich výsledků.“

14.února 2019 v 18:03, příspěvek archivován: 11.března 2019 v 15:10

VIDEO: We've trained an unsupervised language model that can generate coherent paragraphs and perform rudimentary reading comprehension, machine translation, question answering, and summarization ? all without task-specific training: https://t.co/sY30aQM7hU

Pro zobrazen? videa mus?te m?t zapnutou podporu JavaScriptu

We've trained an unsupervised language model that can generate coherent paragraphs and perform rudimentary reading comprehension, machine translation, question answering, and summarization — all without task-specific training: https://t.co/sY30aQM7hU https://t.co/360bGgoea3

Jak konkrétně by šlo tento generátor textů zneužít? Autoři neziskové organizace OpenAI (u jejíhož zrodu stál i miliardář Elon Musk, ten ale nedávno odešel, aby se soustředil na vedení firem Tesla a SpaceX) jmenují konkrétně tyto způsoby, kterými by šlo generátor využít k ne-až-tak-chvályhodným účelům:

  • falešné a zavádějící „novinové“ články – nástroj GPT-2 by mohl kdokoli využít ke generování velkého množství textů, které by se tvářily jako novinové. Co na tom, že by tyto texty nebyly pravdivé. Byly by jakž takž čitelné a jedinečné, takže by zřejmě prošly automatickými nástroji a mohly by zmást dostatek lidí. Provozovatelé takových stránek obvykle vydělávají na reklamách nebo mají jiné záměry než výdělek.
  • krádež identity – nástroj by mohl pomoci vytvořit sofistikované sítě vytvářející dojem osobní konverzace nebo personalizovaného obsahu, což by mohlo vést k falšování identity reálných (či smyšlených) lidí.
  • falešný obsah na sociálních sítích – už dnes se robotičtí trolové podílejí na automatickém a poloautomatickém šíření tzv. neautentického obsahu. Nástroj pro generování textu by ale produkci takového obsahu výrazně urychlil.
  • automatizovaná tvorba spamu a podvodných stránek – řada spamů a podvodných stránek využívá k přesvědčování případných zákazníků unikátní texty. Dnes je na základě šablon generují lidé, se strojovým generátorem by to ale měli o hodně jednodušší a jejich činnost by byla hůře odhalitelná.

A to je samozřejmě jen začátek. Velká část komunikace na internetu nějakým způsobem využívá textu, a rychlé automatické generování důvěryhodně znějícího textu by se dalo použít pro řadu různých podvodů generovaných ve velkém: falešné inzeráty, falešná videa, falešné recenze, falešné telefonáty, falešné emaily, automaticky generované knihy, automatické úpravy Wikipedie atd. „Veřejnost bude muset být mnohem skeptičtější vůči textu na internetu,“ připomínají tvůrci. Jako příklady prospěšných využití naopak uvádějí nástroje pro asistenci při psaní textů, nástroje pro snazší komunikaci s automaty, nástroje pro generování souhrnu dlouhých textů nebo nástroje pro automatizovaný překlad.

Jak se využívá strojového učení a neuronových sítí pro překlad (archiv):

Vývojáři OpenAI se rozhodli, že tento nástroj nezpřístupní zdarma na internetu: „Nejsme si jisti, že je to správné rozhodnutí. Věříme, že komunita zabývající se umělou inteligencí bude muset časem vyřešit problematiku norem pro to, co lze publikovat z výzkumu v určitých oblastech. Podobná debata se vede v odvětvích jako biotechnologie nebo kyberbezpečnost, a my doufáme, že náš experiment povzbudí debatu i v oblasti strojového učení.“

Zdaleka ne všichni vývojáři nástrojů strojového učení přistupují ke zveřejňování svých algoritmů takto opatrně. Například nástroje využívající neuronových sítí pro tvorbu realisticky vypadajících obličejů jsou k dispozici (zde si třeba můžete vygenerovat náhodnou tvář).

Jak funguje generování obličejů pomocí neuronových sítí (Technet.cz):

Je na čase přestat věřit textům?

Ani opatrnost OpenAI při zveřejňování ovšem neznamená, že by se podobná technologie nedostala v dohledné době na veřejnost. Během několika týdnů či měsíců by mohl kdokoli přijít s vlastním generátorem, ať už založeným na kódu OpenAI, nebo na vlastní technologii.

Podobně, jako jsme kvůli fotomontážím museli přestat bezmezně věřit fotografiím, budeme si muset začít zvykat na to, že některé typy textů lze velmi snadno falšovat v masovém měřítku. Čechy v tomto může paradoxně ještě chvíli ochránit náš specifický jazyk plný skloňování, ale s dostatkem dat je pravděpodobně i tato nesnáz překonatelná.

Co bude dál, to nikdo neví. Proč se tedy nepodívat, jak by článek na toto téma dokončila právě neuronová síť GPT-2: „Umélá inteligence mění naše životy neuvěřitelně rychle a tím nejlepším možným způsobem. Toto je budoucnost, a obor umělé inteligence jde do míst, o kterých jsme dříve ani netušili.“

Autor:
  • Nejčtenější

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

v diskusi je 30 příspěvků

13. dubna 2024

V dubnu 1924 zažilo americké námořnictvo obrovský skandál, který se dostal na titulní stránky...

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

v diskusi je 17 příspěvků

15. dubna 2024

Položíte jej na polici před televizor, propojíte kabelem, zapojíte do zásuvky a během pár chvil se...

Dawesův plán na čas stabilizoval Německo, ale nástup Hitlera neodvrátil

v diskusi je 15 příspěvků

16. dubna 2024

Německá vláda přijala před 100 lety, v dubnu 1924, Dawesův plán. Byl to americký projekt na...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Patnáct zbytečných obětí. Před 100 lety vybuchl důl Gabriela na Ostravsku

v diskusi jsou 4 příspěvky

12. dubna 2024

Dvanáctý duben 1924 přinesl vážnou důlní katastrofu v Československu. Výbuch v dole Gabriela v...

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi nejsou příspěvky

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

v diskusi je 5 příspěvků

18. dubna 2024

V roce 2004 vstoupilo Lotyšsko do NATO, přesto nemůže nechat svou případnou obranu pouze na bedrech...

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

v diskusi jsou 2 příspěvky

17. dubna 2024  15:12

Vědci z projektu Lassie, sponzorovaném americkou NASA, zdokonalují robotického psa pro použití při...

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

v diskusi je 7 příspěvků

17. dubna 2024  11:50

Před několika týdny proběhla médii informace o varování německého Spolkového úřad pro civilní...

Náhle zemřel zpěvák Maxim Turbulenc Daniel Vali, bylo mu 53 let

Ve věku 53 let zemřel zpěvák skupiny Maxim Turbulenc Daniel Vali. Letos by se svou kapelou oslavil 30 let na scéně....

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Charlotte spí na Hlaváku mezi feťáky, dluží spoustě lidí, říká matka Štikové

Charlotte Štiková (27) před rokem oznámila, že zhubla šedesát kilo. Na aktuálních fotkách, které sdílela na Instagramu...

Vykrojené trikoty budí emoce. Olympijská kolekce Nike je prý sexistická

Velkou kritiku vyvolala kolekce, kterou pro olympijský tým amerických atletek navrhla značka Nike. Pozornost vzbudily...

Rohlík pro dítě, nákup do kočárku. Co v obchodě projde a kdy už hrozí právník?

V obchodech platí pravidla, která občas zákazník nedodržuje. Někdy se navoní parfémem, aniž by použil tester, nebo...