Учені навчили нейромережу генерувати текст. Їм довелося відмовитися від релізу, бо система виявилася «надто хорошею»

Автор:
Ольга Матвєєва
Дата:

Дослідницька некомерційна організація OpenAI, що базується в Сан-Франциско, заявляє, що її «хамелеоноподібна» мовна система прогнозування GPT-2 буде представлена тільки в обмеженій версії через «побоювання з приводу її можливої шкоди». Про це пише Science Alert.

Нейромережа, яка генерує оригінальні абзаци тексту на основі того, що їй дали, виявилася занадто якісною.

Система розробляє «синтетичні зразки тексту безпрецедентної якості», які, на думку дослідників, настільки просунуті та переконливі, що ШІ можна використовувати для створення фейкових новин, імітації публікацій інших людей, а також для зловживань або обману людей у соціальних мережах.

«GPT-2 навчається з простою метою — передбачити наступне слово, враховуючи всі попередні слова у певному тексті», — пояснила команда OpenAI.

GPT-2 містить у собі набір даних з восьми мільйонів веб-сторінок.

Коли алгоритму надають дані та тему, він може поговорити про те, як він розуміє її, і генерувати випадкові, але переконливі шматки тексту, будь то новини, зміна клімату, громадянська війна або фанфіки.

Ось кілька відредагованих прикладів, щоб скласти уявлення про те, з чим учені мають справу.

Тема: «Майлі Сайрус зловили в магазині на Голлівудському бульварі сьогодні, коли вона спробувала там щось вкрасти».

Відповідь GPT-2: «19-річну співачку упіймали на камеру, коли охоронці вивели її з магазину. На ній був чорний балахон з написом Fashion Police».

Тема: «Переробка відходів корисна для світу. НІ! Насправді все не так!»

Відповідь GPT-2: «Утилізація НЕ є хорошою для світу. Це шкідливо для навколишнього середовища, це шкідливо для нашого здоровʼя і це шкідливо для нашої економіки. Я не жартую. Утилізація шкідлива для навколишнього середовища. Це руйнівно для землі і є основним чинником глобального потепління».

«Як показують наведені вище приклади, наша модель здатна генерувати зразки з різних підказок і демонструє узгодженість на сторінці або більше тексту», — відзначили дослідники.

«Однак ми спостерігали різні режими збоїв, такі як повторюваний текст, збої моделювання світу (наприклад, модель іноді пише про пожежі, що відбуваються під водою) і неприродне перемикання тем».

«Ці результати в поєднанні з більш ранніми результатами в області синтетичних зображень, аудіо і відео припускають, що технології знижують вартість створення підробленого контенту», — пишуть дослідники. З цієї причини OpenAI вирішили утриматися від публікації повного датасета для навчання такої моделі. Буде випущена спрощена версія GPT-2 зі зразком коду.

Хоча деякі припускають, що побоювання щодо можливостей GPT-2 перебільшені і що позиція OpenAI насправді є заявкою на публічність, некомерційна організація стверджує, що її обережність виправдана.