Гигантский GPT-3 от OpenAI намекает на пределы языковых моделей для искусственного интеллекта

Немного больше года назад, OpenAI, компания по искусственному интеллекту с главным офисом в Сан-Франциско, потрясла мир показав драматический прорыв в способности компьютеров формировать предложения естественным языком, а также решать вопросы, например, завершать предложение и составлять длинные тексты, которые казались достаточно человеческими.

Последние работы этой команды показывают, как подход OpenAI в некоторых аспектах стал более зрелым. GPT-3, как называется новейшее творение, появился на прошлой неделе с еще большим количеством новых возможностей, созданных теми же авторами, включая Алека Рэдфорда и Илью Суцкевера, а также нескольких дополнительных сотрудников, включая ученых из университета Джонса Хопкинса.

Теперь это действительно гигантская языковая модель, как ее называют, пожирающая на два порядка больше текста, чем ее предшественник.

Однако в рамках этого трюка "чем больше, тем лучше", команда OpenAI, кажется, подходит к некоторым более глубоким истинам, подобно тому, как доктор Дэвид Боуман подошел к границам известного в конце фильма 2001.

Зарытое в заключительной части 72-страничной статьи, Модели языка являются обучаемыми на небольшом количестве данных, опубликованной на прошлой неделе на сервере предварительных публикаций arXiv, содержится довольно поразительное признание.

"Более фундаментальное ограничение общего подхода, описанного в данной статье - масштабирование моделей, подобных ЯП, будь то авторегрессивные или двунаправленные, заключается в том, что в конечном итоге они могут столкнуться (или уже столкнулись) с ограничениями предобучающей цели", - пишут авторы.

Что говорят авторы, так это то, что создать нейронную сеть, которая просто предсказывает вероятности следующего слова в любом предложении или фразе, может иметь свои ограничения. Просто усиливать ее и заполнять ее все большим количеством текста может не привести к лучшим результатам. Это значительное признание в рамках работы, которая в основном отмечает достижение в решении проблемы за счет большей вычислительной мощности.

Чтобы понять, почему выводы авторов так важны, рассмотрим, как мы сюда пришли. История работы OpenAI в области языка является частью истории последовательного прогресса одного типа подхода, с увеличением успехов по мере увеличения масштаба технологии.

Оригинальная GPT и GPT-2 являются адаптациями того, что известно как трансформатор, изобретение, осуществленное в Google в 2017 году. Трансформатор использует функцию, называемую внимание, чтобы рассчитать вероятность того, что слово появится на фоне окружающих слов. В прошлом году OpenAI вызвала контроверзу, заявив, что не будет распространять исходный код самой большой версии GPT-2, потому что, как они сказали, этот код может попасть в неправильные руки и быть злоупотребленным для обмана людей, например, путем распространения фейковых новостей.

Новая статья повышает уровень GPT, сделав его еще большим. Самая большая версия GPT-2, которая не была размещена в исходной форме, содержала 1,5 миллиарда параметров. У GPT-3 их 175 миллиардов. Параметр - это вычисление в нейронной сети, которое применяет больший или меньший вес к некоторому аспекту данных, чтобы предоставить этому аспекту большую или меньшую важность в общем вычислении данных. Именно эти веса придают форму данным и дают нейронной сети усвоенную перспективу на данные.

Увеличение весов со временем привело к потрясающим результатам тестирования бенчмарков семейства программ GPT и другим крупным производным Трансформеров, таким как BERT от Google, результаты, которые всегда были впечатляющими.

Не обращайте внимания на то, что многие люди указывают на то, что ни одна из этих языковых моделей действительно не кажется понимающей язык в каком-то смысле. Они совершают испытания на отлично, и это что-то значит.

Последняя версия снова показывает количественный прогресс. Как и GPT-2 и другие программы на основе трансформаторов, GPT-3 обучается на наборе данных Common Crawl, корпусе почти в триллион слов текстов, собранных с веб-страниц. "Размер набора данных и модели увеличился примерно в два порядка по сравнению с GPT-2", пишут авторы.

С GPT-3 с 175 миллиардами параметров возможно достижение того, что авторы описывают как "мета-обучение". Мета-обучение означает, что нейронная сеть GPT не переобучается для выполнения задачи, такой как завершение предложения. При предоставлении примера задачи, такого как неполное предложение, а затем завершенного предложение, GPT-3 продолжит завершать любое неполное предложение, которое ему дадут.

GPT-3 способен научиться выполнять задачу с помощью одного подсказчика лучше, чем версии Transformer, которые были доведены до совершенства, чтобы специально выполнять только эту задачу. Следовательно, GPT-3 является триумфом всеобъемлющей универсальности. Просто покормите его огромным количеством текста, пока его веса не будут идеальными, и он сможет выполнять довольно хорошо несколько конкретных задач без дополнительной разработки.

Вот где история достигает впечатляющего развязки в новой статье. После перечисления впечатляющих результатов GPT-3 в задачах языка, включая заполнение предложений, установление логической связи между утверждениями и перевод между языками, авторы отмечают недостатки.

"Несмотря на существенные количественные и качественные улучшения GPT-3, особенно по сравнению с его прямым предшественником GPT-2, у него все еще есть заметные недостатки."

Те слабости включают невозможность достижения значительной точности в так называемом "Адверсариальном NLI". NLI или вывод естественного языка - это тест, где программа должна определить отношение между двумя предложениями. Исследователи из Facebook и Университета Северной Каролины представили адверсариальную версию, где люди создают пары предложений, которые сложно решить компьютеру.

GPT-3 делает "немного лучше, чем случайность" в таких вещах, как Адверсариальный NLI, пишут авторы. Что хуже, увеличивая мощность обработки своей системы до 175 миллиардов весов, авторы не совсем понимают, почему они проходят некоторые задачи неудачно.

Вот когда они приходят к выводу, цитируемому выше, что, возможно, просто подача огромного корпуса текста в гигантскую машину не является окончательным ответом.

Еще более потрясающим является следующее наблюдение. Весь процесс попытки предсказать, что произойдет с языком, может быть неправильным подходом, пишут авторы. Они могут направляться не в том месте.

"С использованием самообучающихся задач, задача определения зависит от того, чтобы превратить желаемую задачу в проблему предсказания", - пишут они, - "тогда как в конечном итоге полезные языковые системы (например, виртуальные ассистенты) могут быть лучше рассмотрены как осуществление направленных на цель действий, а не только как предсказания".

Авторы оставляют на будущее время указать, как они возьмутся за этот довольно увлекательный потенциальный новый путь.

Несмотря на понимание того, что в конечном итоге больше может не означать лучше, улучшенные результаты GPT-3 во многих задачах, скорее всего, только подогревают желание создавать все более и более крупные нейронные сети, а не снижают его. GPT-3 c 175 миллиардами параметров — король больших нейронных сетей, на данный момент. Презентация компании по искусственному интеллекту Tenstorrent в апреле описывала будущие нейронные сети с более чем одним трллионом параметров.

Для большей части сообщества машинного обучения, создание все более крупных языковых моделей останется передовым направлением.

Гигантский GPT-3 от OpenAI предполагает ограничения языковых моделей для искусственного интеллекта

Связанные статьи