Эта новая технология может смести с самого верха GPT-4 и всё, что похоже на него

На все суету вокруг чатбота AI-программы, известной как ChatGPT, от OpenAI, и ее преемника, GPT-4, программы в конечном итоге представляют собой просто приложения. И, как все приложения, они имеют технические ограничения, которые могут сделать их производительность менее оптимальной.

В статье, опубликованной в марте, ученые по искусственному интеллекту (ИИ) из Стэнфордского университета и института МИЛА в Канаде предложили технологию, которая может быть гораздо эффективнее, чем GPT-4 — или что-либо подобное — при обработке огромных объемов данных и превращении их в ответ.

Также: Эти бывшие сотрудники Apple хотят заменить смартфоны этим гаджетом

Известная как Гиена, эта технология способна достигать такой же точности на стандартных тестах, таких как ответы на вопросы, в то время как использует только часть вычислительных мощностей. В некоторых случаях, код Гиены может обрабатывать объемы текста, которые заставляют технологию в стиле GPT просто исчерпывать память и сбоить.

"Наши многообещающие результаты на масштабе менее миллиарда параметров позволяют предположить, что внимание может быть не всем, что нам нужно", пишут авторы. Эта замечательная говорит о названии исторического доклада по искусственному интеллекту 2017 года "Внимание это все, что нам нужно". В этой статье ученые Google, Ашиш Васвани и его коллеги, представили миру программу искусственного интеллекта Transformer. Transformer стал основой для всех последних больших языковых моделей.

Однако у Трансформера есть большой недостаток. Он использует так называемое "внимание", когда компьютерная программа берет информацию из одной группы символов, таких как слова, и перемещает эту информацию в новую группу символов, например, ответ, который вы видите от ChatGPT, который является результатом.

Также:Что такое GPT-4? Вот все, что вам нужно знать

Эта операция внимания - существенный инструмент всех крупных языковых программ, включая ChatGPT и GPT-4 - имеет "квадратичную" вычислительную сложность (временную сложность вычисления в соответствии с Википедией). Эта сложность означает, что время, необходимое для ChatGPT для предоставления ответа, увеличивается квадратично с увеличением объема входных данных, подаваемых на вход.

В какой-то момент, если данных будет слишком много - слишком много слов в запросе или слишком много строк бесед в течение часов и часов общения с программой, тогда либо программа начинает тормозить при предоставлении ответа, либо ей требуется всё больше и больше GPU-чипов для более быстрой работы, что приводит к всплеску вычислительных требований.

В новой статье 'Иерархия гиен: к более крупным сверточным языковым моделям' (Hyena Hierarchy: Towards Larger Convolutional Language Models), опубликованной на сервере препринтов arXiv, ведущий автор Майкл Поли из Стэнфорда и его коллеги предлагают заменить функцию внимания Трансформера на нечто подквадратичное, а именно - Hyena.

Также: Что такое Auto-GPT? Все, что нужно знать о следующем мощном инструменте искусственного интеллекта

Авторы не объясняют название, но можно представить несколько причин для программы "Hyena". Гиены - животные, которые живут в Африке и могут охотиться на многие мили. В некотором смысле очень мощная языковая модель может быть похожей на гиену, охотящуюся на многие мили в поисках пищи.

Но авторы действительно обеспокоены "иерархией", как подразумевает заголовок, и у гиен есть строгая иерархия, в которой члены местного клана гиен имеют разные уровни ранга, которые устанавливают доминирование. Некоторым аналогичным образом программа Hyena применяет множество очень простых операций, как вы увидите, снова и снова, так что они объединяются, чтобы образовать своего рода иерархию обработки данных. Именно эта комбинаторная составляющая дает программе ее имя Hyena.

Также:Будущие версии ChatGPT могут заменить большинство работ, которые сегодня выполняют люди, говорит Ben Goertzel

Среди авторов статьи – знаменитые имена сферы искусственного интеллекта, такие как Ёшуа Бенджио, научный директор MILA и лауреат премии Тьюринга 2019 года, эквивалентной в области вычислительных наук Нобелевской премии. Бенджио широко признан как разработчик механизма внимания, задолго до того, как Васвани и его коллектив адаптировали его для Transformer.

Среди авторов также присутствует профессор ассоциация по компьютерным наукам Стэнфордского университета Кристофер Ре, который в последние годы способствовал развитию идеи ИИ как "программного обеспечения 2.0".

Чтобы найти альтернативу квадратичному вниманию, Поли и его команда начали изучать, как работает механизм внимания, чтобы посмотреть, могут ли эту работу выполнить более эффективно.

Новая практика в науке искусственного интеллекта, известная как механистическая интерпретируемость, позволяет узнать о том, что происходит глубоко внутри нейронной сети, в вычислительных "схемах" внимания. Можно представить это так, будто вы разбираете программное обеспечение, как разберете часы или компьютер, чтобы увидеть его части и понять, как оно работает.

Также:Я использовал ChatGPT, чтобы написать одинаковые рутины на 12 самых популярных языках программирования. Вот как это сделалось

Одно из исследований, на которое ссылаются Поли и команда, представляет собой набор экспериментов, проведенных исследователем Нельсоном Эльхаге из стартапа по искусственному интеллекту Anthropic. В этих экспериментах анализируется, что делает внимание в программах-трансформаторах.

По сути, то, что обнаружил Эльхаж и его команда, заключается в том, что внимание функционирует на самом простом уровне с помощью очень простых операций компьютера, таких как копирование слова из последнего ввода и вставка его в вывод.

Например, если кто-то начинает вводить в программу большой языковой модели, такую как ChatGPT, предложение из "Гарри Поттера и Философского камня", например "Мистер Дурсль был директором фирмы под названием Граннингс...", просто введение "Д-у-р-с" может быть достаточно, чтобы побудить программу завершить имя "Дурсль", потому что она видела это имя в предыдущем предложении "Философского камня". Система способна скопировать из памяти запись символов "л-е-й", чтобы завершить предложение.

Также:Будущийист говорит, что ChatGPT больше похож на 'интеллект инопланетного происхождения', чем на человеческий мозг

Однако операция внимания сталкивается с проблемой квадратичной сложности по мере увеличения количества слов. Больше слов требуют больше того, что называется "весами" или параметрами, для выполнения операции внимания.

Как пишут авторы: "Блок Transformer - это мощный инструмент для моделирования последовательностей, но он не без своих ограничений. Одним из наиболее заметных является вычислительная сложность, которая быстро растет с увеличением длины входной последовательности."

В то время как технические подробности ChatGPT и GPT-4 не были раскрыты OpenAI, считается, что у них могут быть триллион или более таких параметров. Для запуска этих параметров требуется больше GPU-чипов от Nvidia, что приводит к увеличению стоимости вычислений.

Для снижения квадратичной вычислительной стоимости Поли и его команда заменяют операцию внимания на так называемую "свёртку", которая является одной из самых старых операций в программировании искусственного интеллекта, разработанной в 1980-х годах. Свёртка - это просто фильтр, который может выделять элементы в данных, будь то пиксели на цифровом фото или слова в предложении.

Также:Успех ChatGPT может привести к опасному повороту к тайне в области искусственного интеллекта, говорит пионер искусственного интеллекта Бенджио

Поли и команда делают своего рода мешап: они берут работу, выполненную исследователем Стэнфорда Дэниелом Y. Фу и его командой, чтобы применять сверточные фильтры к последовательностям слов, и объединяют это со работой ученого Дэвида Ромеро и его коллег из Врийе Университета Амстердама, позволяющей программе изменять размер фильтра в режиме реального времени. Эта способность гибко адаптироваться сокращает количество дорогостоящих параметров или весов, которыми должна обладать программа.

Результатом мэш-апа является возможность применять свертку к неограниченному количеству текста без необходимости использовать все больше и больше параметров для копирования все большего объема данных. Это подход "без внимания", как выразились авторы.

"Операторы гиены способны значительно сократить разрыв в качестве при равномасштабном внимании", пишут Поли и команда, "достигая схожей затрудняющейся задачей и производительности в сопутствующих процессах с более низким вычислительным бюджетом." Перплексия - технический термин, относящийся к тому, насколько сложный ответ генерируется программой, такой как ChatGPT.

Для демонстрации возможностей Hyena авторы тестируют программу на ряде тестов, которые определяют, насколько хорош языковой программный продукт в решении различных задач искусственного интеллекта.

Также: 'В программном обеспечении происходят странные новые вещи', говорит профессор искусственного интеллекта Стэнфордского университета Крис Ре

Одним из таких тестов является огромный объем текстов, названный "The Pile", собранный в 2020 году Eleuther.ai - некоммерческой AI-компанией исследований. Тексты были собраны из "высококачественных" источников, таких как PubMed, arXiv, GitHub, Офис по патентам США, и других, чтобы источники имели более строгую форму, чем, например, обсуждения на Reddit.

Главной задачей программы было создать следующее слово при условии ввода новых предложений. Программа Hyena смогла достичь эквивалентного результата оригинальной GPT программы от OpenAI 2018 года, с 20% меньшим количеством вычислительных операций - "первая архитектура без внимания, сверточная архитектура, способная сравниться с качеством GPT с меньшим количеством операций", утверждают исследователи.

Затем авторы протестировали программу на заданиях по рассуждениям известных как SuperGLUE, представленных в 2019 году учеными из Нью-Йоркского университета, исследовательской лаборатории Facebook AI, отдела DeepMind компании Google и Университета Вашингтона.

Например, когда дано предложение "Мое тело бросало тень на траву", и два варианта причины, "солнце поднималось" или "трава была подстрижена", и попросили выбрать одно из них, программа должна сгенерировать "солнце поднималось" как подходящий ответ.

В нескольких задачах программа Hyena достигла результатов, сравнимых с версией GPT, при том, что обучалась на меньшем объеме обучающих данных.

Также: Как использовать новый Bing (и в чем отличие от ChatGPT)

Еще более интересно стало то, что произошло, когда авторы увеличили длину фраз, используемых в качестве вводных данных: больше слов означало лучшее улучшение в производительности. При 2 048 "токенах", которые можно представить как слова, Hyena требуется меньше времени для выполнения языковой задачи, чем подход с внимательностью.

В 64 000 токенов авторы сообщают: "Увеличение скорости гиены достигает 100 раз" - стоикратное улучшение производительности.

Поли и его команда утверждают, что они не просто попробовали другой подход с Hyena, они "разрушили квадратичное препятствие", вызвав качественное изменение в том, насколько сложно программе вычислить результаты.

Они предлагают, что также существуют потенциально значительные сдвиги в качестве дальше по дороге: "Преодоление квадратичного барьера - ключевой шаг к новым возможностям для глубокого обучения, таким как использование целых учебников в качестве контекста, создание музыки большой длительности или обработка изображений gigapixel масштаба," пишут они.

Возможность Гиены использовать фильтр, который эффективнее растягивается на тысячи и тысячи слов, позволяет, по словам авторов, практически не ограничивать "контекст" запроса в языковой программе. Он может, на самом деле, воспроизвести элементы текстов или предыдущих разговоров, отдаленных от текущей цепочки разговора - точно так же, как гиены охотятся на расстояниях в милях.

Также: Лучшие чатботы с искусственным интеллектом: ChatGPT и другие интересные альтернативы для попробовать

"Операторы гиен имеют безграничный контекст," они пишут. "А именно, они не подвержены искусственным ограничениям, например, локальности, и могут обнаружить долгосрочные зависимости между любыми элементами [ввода]."

Кроме того, помимо слов, эту программу можно применять к данным различных модальностей, таким как изображения и, возможно, видео и звуки.

Важно отметить, что программа Hyena, показанная в статье, является небольшой по размеру по сравнению с GPT-4 или даже GPT-3. В то время как у GPT-3 есть 175 миллиардов параметров или весов, самая большая версия Hyena имеет всего лишь 1,3 миллиарда параметров. Таким образом, остается вопрос, насколько хорошо Hyena справится с полным сравнением с GPT-3 или 4.

Однако, если достигнутая эффективность сохранится и для более крупных версий программы Hyena, это может стать новой парадигмой, такой же распространенной, как внимание в последнее десятилетие.

Как заключают Поли и его команда: "Более простые субквадратичные модели, такие как Hyena, основанные на наборе простых руководящих принципов и проверенные на механистических бенчмарках интерпретируемости, могут послужить основой для эффективных больших моделей".

Эта новая технология может снести GPT-4 и все подобное

Связанные статьи