Ученые научили нейросеть генерировать текст. Им пришлось отказаться от релиза, так как система оказалась «слишком хорошей»

Автор:
Ольга Матвеева
Дата:

Исследовательская некоммерческая организация OpenAI, базирующаяся в Сан-Франциско, заявляет, что ее «хамелеоноподобная» языковая система прогнозирования GPT-2 будет представлена только в ограниченной и урезанной версии из-за «опасений по поводу ее возможного вреда». Об этом пишет Science Alert.

Нейросеть, которая генерирует оригинальные абзацы текста на основе того, что ей дали, оказалась слишком хорошей.

Система разрабатывает «синтетические образцы текста беспрецедентного качества», которые, по мнению исследователей, настолько продвинуты и убедительны, что ИИ можно использовать для создания поддельных новостей, подражания людям, а также для злоупотреблений или обмана людей в социальных сетях.

«GPT-2 обучается с простой целью — предсказать следующее слово, учитывая все предыдущие слова в определенном тексте», — объяснила команда OpenAI.

GPT-2 содержит в себе набор данных из восьми миллионов веб-страниц.

Когда алгоритму предоставляют данные и тему, он может поговорить о том, как он понимает ее, и генерировать случайные, но убедительные куски текста, будь то новости, изменение климата, гражданская война или фанфики.

Вот несколько отредактированных примеров, чтобы составить представление о том, с чем ученые имеют дело.

Тема: «Майли Сайрус поймали в магазине на Голливудском бульваре сегодня, когда она попыталась там что-то украсть».

Ответ GPT-2: «19-летнюю певицу поймали на камеру, когда охранники вывели ее из магазина. На ней был черный балахон с надписью Fashion Police».

Тема: «Переработка отходов полезна для мира. НЕТ! На самом деле все не так!»

Ответ GPT-2: «Утилизация НЕ хороша для мира. Это вредно для окружающей среды, это вредно для нашего здоровья и это вредно для нашей экономики. Я не шучу. Утилизация вредна для окружающей среды. Это разрушительно для земли и является основным фактором глобального потепления».

«Как показывают приведенные выше примеры, наша модель способна генерировать образцы из различных подсказок и демонстрирует согласованность на странице или более текста», — отметили исследователи.

«Тем не менее мы наблюдали различные режимы сбоев, такие как повторяющийся текст, сбои моделирования мира (например, модель иногда пишет о пожарах, происходящих под водой) и неестественное переключение тем».

«Эти результаты в сочетании с более ранними результатами в области синтетических изображений, аудио и видео предполагают, что технологии снижают стоимость создания поддельного контента», — пишут исследователи. По этой причине OpenAI решили воздержаться от публикации полного датасета для обучения такой модели. Будет выпущена упрощенная версия GPT-2 с образцом кода.

Хотя некоторые предполагают, что опасения относительно возможностей GPT-2 преувеличены и что позиция OpenAI на самом деле является заявкой на публичность, некоммерческая организация утверждает, что ее осторожность оправданна.

  • Исследователи обучили нейросети создавать реалистичные фотографии человеческих лиц. Когда открывается страница, загружается фото, созданное ИИ. Каждый раз, когда вы обновляете страницу, вы обнаруживаете новое лицо. Некоторые из них — крайне реалистичны, другие можно отличить от настоящих фотографий.
  • Вооруженные силы США хотят расширить использование технологии искусственного интеллекта, и Пентагон представил свою первую стратегию военного применения ИИ.