Как работает водяной знак ChatGPT и почему его можно обойти

ChatGPT от OpenAI представил способ автоматического создания контента, но планы по внедрению функции водяных знаков, чтобы упростить обнаружение, заставляют некоторых людей нервничать. Вот как работает водяной знак ChatGPT и почему может быть способ победить его.

ChatGPT — это невероятный инструмент, который онлайн-издатели, аффилиаты и SEO-специалисты одновременно любят и боятся.

Некоторым маркетологам это нравится, потому что они открывают новые способы его использования для создания сводок контента, планов и сложных статей.

Интернет-издатели боятся, что контент ИИ заполонит результаты поиска, вытеснив экспертные статьи, написанные людьми.

Следовательно, новости о функции водяных знаков, которая открывает возможность обнаружения контента, созданного ChatGPT, также ожидаются с тревогой и надеждой.

Криптографический водяной знак

Водяной знак — это полупрозрачный знак (логотип или текст), встроенный в изображение. Водяной знак сигнализирует о том, кто является первоначальным автором произведения.

Это в основном видно на фотографиях и все чаще на видео.

Текст водяных знаков в ChatGPT включает в себя криптографию в виде встраивания шаблона слов, букв и знаков препинания в виде секретного кода.

Скотт Ааронсон и водяные знаки ChatGPT

В июне 2022 года OpenAI наняла влиятельного ученого-компьютерщика по имени Скотт Ааронсон для работы над безопасностью и выравниванием ИИ.

Безопасность ИИ — это область исследований, посвященная изучению способов, которыми ИИ может нанести вред людям, и созданию способов предотвращения такого негативного воздействия.

Научный журнал Distill, в котором представлены авторы, связанные с OpenAI, определяет безопасность ИИ следующим образом:

«Цель долгосрочной безопасности искусственного интеллекта (ИИ) состоит в том, чтобы гарантировать, что передовые системы ИИ надежно соответствуют человеческим ценностям — чтобы они надежно делали то, что люди хотят, чтобы они делали».

AI Alignment — это поле искусственного интеллекта, связанное с тем, чтобы убедиться, что AI соответствует намеченным целям.

Большая языковая модель (LLM), такая как ChatGPT, может использоваться таким образом, который может идти вразрез с целями выравнивания ИИ, определенными OpenAI, которые заключаются в создании ИИ, который приносит пользу человечеству.

Соответственно, водяные знаки используются для предотвращения неправомерного использования ИИ таким образом, который наносит вред человечеству.

Ааронсон объяснил причину водяных знаков на выходе ChatGPT:

«Очевидно, что это может быть полезно для предотвращения академического плагиата, а также, например, для массового распространения пропаганды…»

Как работает водяной знак ChatGPT?

Водяные знаки ChatGPT — это система, которая встраивает статистический шаблон, код в выбор слов и даже знаков препинания.

Контент, созданный искусственным интеллектом, генерируется с довольно предсказуемым шаблоном выбора слов.

Слова, написанные людьми и ИИ, следуют статистической закономерности.

Изменение шаблона слов, используемых в сгенерированном контенте, — это способ поставить «водяной знак» на текст, чтобы системе было легко определить, был ли он продуктом текстового генератора ИИ.

Трюк, который делает водяные знаки контента AI незаметным, заключается в том, что распределение слов по-прежнему имеет случайный вид, похожий на обычный текст, сгенерированный AI.

Это называется псевдослучайным распределением слов.

Псевдослучайность — это статистически случайный ряд слов или чисел, которые на самом деле не являются случайными.

Водяные знаки ChatGPT в настоящее время не используются. Однако Скотт Ааронсон из OpenAI официально заявил, что это запланировано.

Прямо сейчас ChatGPT находится в предварительной версии, что позволяет OpenAI обнаруживать «несовпадение» в реальном мире.

Предположительно водяные знаки могут быть введены в окончательной версии ChatGPT или раньше.

Скотт Ааронсон писал о том, как работают водяные знаки:

«До сих пор моим основным проектом был инструмент для статистического добавления водяных знаков к результатам текстовой модели, такой как GPT.
По сути, всякий раз, когда GPT генерирует какой-то длинный текст, мы хотим, чтобы в его выборе слов был незаметный секретный сигнал, который вы можете использовать, чтобы позже доказать, что да, это исходит от GPT».

Далее Ааронсон объяснил, как работает водяной знак ChatGPT. Но сначала важно понять концепцию токенизации.

Токенизация — это шаг, который происходит при обработке естественного языка, когда машина берет слова в документе и разбивает их на семантические единицы, такие как слова и предложения.

Токенизация превращает текст в структурированную форму, которую можно использовать в машинном обучении.

Процесс генерации текста представляет собой угадывание машиной следующей лексемы на основе предыдущей лексемы.

Это делается с помощью математической функции, которая определяет вероятность того, каким будет следующий токен, что называется распределением вероятностей.

Какое слово будет следующим, предсказывается, но оно случайно.

Сам водяной знак — это то, что Аарон описывает как псевдослучайное, поскольку есть математическая причина для того, чтобы конкретное слово или знак препинания присутствовали, но это все еще статистически случайно.

Вот техническое объяснение водяных знаков GPT:

«Для GPT каждый ввод и вывод представляет собой строку токенов, которые могут быть словами, а также знаками препинания, частями слов или чем-то еще — всего около 100 000 токенов.
По своей сути, GPT постоянно генерирует распределение вероятностей для следующего токена, который нужно сгенерировать, в зависимости от строки предыдущих токенов.
После того, как нейронная сеть сгенерирует распределение, сервер OpenAI затем фактически выбирает токен в соответствии с этим распределением или какой-либо модифицированной версией распределения, в зависимости от параметра, называемого «температура».
Однако пока температура отлична от нуля, выбор следующей лексемы обычно будет происходить случайным образом: вы можете запускать снова и снова с одним и тем же приглашением и каждый раз получать другое завершение (т. е. строку выходных лексем). .
Таким образом, для водяного знака вместо случайного выбора следующего токена идея будет состоять в том, чтобы выбрать его псевдослучайно, используя криптографическую псевдослучайную функцию, ключ которой известен только OpenAI».

Водяной знак выглядит совершенно естественным для тех, кто читает текст, потому что выбор слов имитирует случайность всех остальных слов.

Это техническое объяснение:

«Чтобы проиллюстрировать, в особом случае, когда у GPT есть набор возможных токенов, которые он считает равновероятными, вы можете просто выбрать любой токен, максимизирующий g. Для того, кто не знает ключа, выбор будет выглядеть абсолютно случайным, но тот, кто знает ключ, может позже просуммировать g по всем n-граммам и увидеть, что он аномально велик».

Водяные знаки — это решение, ориентированное на конфиденциальность

Я видел обсуждения в социальных сетях, в которых некоторые люди предлагали OpenAI вести учет каждого генерируемого им вывода и использовать его для обнаружения.

Скотт Ааронсон подтверждает, что OpenAI может это сделать, но это создает проблему конфиденциальности. Возможным исключением является ситуация с правоохранительными органами, о которой он не уточнил.

Как обнаружить водяные знаки ChatGPT или GPT

Кое-что интересное, что, кажется, еще не очень известно, заключается в том, что Скотт Ааронсон заметил, что есть способ победить водяные знаки.

Он не сказал, что водяные знаки можно победить, он сказал, что их можно победить.

«Теперь все это можно победить, приложив достаточно усилий.
Например, если вы использовали другой ИИ для перефразирования вывода GPT — ну ладно, мы не сможем это обнаружить».

Кажется, что водяные знаки можно победить, по крайней мере, с ноября, когда были сделаны вышеуказанные заявления.

Нет никаких указаний на то, что водяной знак используется в настоящее время. Но когда он войдет в обиход, может быть неизвестно, была ли закрыта эта лазейка.

Цитата

Прочитайте сообщение в блоге Скотта Ааронсона здесь.