[ad_1]
Узнайте, как компании ответственно интегрируют ИИ в производство. Это мероприятие, доступное только по приглашению, в Сан-Франциско будет посвящено пересечению технологий и бизнеса. Узнайте, как вы можете принять участие здесь.
В недавнем исследовании исследователи из Meta, Ecole des Ponts ParisTech и Université Paris-Saclay предлагают повысить точность и скорость моделей большого языка ИИ (LLM), заставляя их прогнозировать несколько токенов одновременно.
Это противоречит классической структуре авторегрессионных языковых моделей, которые были разработаны для прогнозирования одного токена за раз.
Хотя прогнозирование с использованием нескольких токенов не является универсальным решением для каждого типа моделей и языковых задач, в некоторых областях оно дает существенные преимущества, обеспечивая тройную скорость и лучшую производительность при выполнении генеративных задач.
Несмотря на то, что этот метод имеет много возможностей для совершенствования, он может стать мощным инструментом для некоторых приложений LLM.
Ограничения прогнозирования следующего токена
Классический способ обучения LLM известен как «предсказание следующего токена» — метод обучения с самоконтролем, при котором модели дается последовательность токенов, и она должна предсказать следующий.
Затем он добавляет предсказанный токен к входным данным и повторяет процесс, по одному токену за раз. Делая это снова и снова с большими массивами текста, модель изучает общие закономерности, которые позволяют ей выводить связные отрывки текста.
Исследователи изучили и задокументировали ограничения прогнозирования следующего токена в приобретении языковых, мировых знаний и способностей к рассуждению.
Например, если сосредоточиться только на одном токене, модель становится слишком чувствительной к локальным закономерностям и упускает из виду прогнозы, требующие рассуждений на более длительные горизонты. Модели, обученные прогнозированию следующего токена, также требуют огромных объемов данных, чтобы достичь уровня беглости речи, который люди приобретают при гораздо меньшем количестве текста.
Новое исследование Meta основано на гипотезе о том, что «обучение языковых моделей прогнозированию нескольких будущих токенов одновременно приводит к более высокой эффективности выборки».
Мультитокеновое предсказание
Прогнозирование нескольких токенов предписывает LLM одновременно прогнозировать несколько будущих токенов из каждой позиции в обучающем корпусе. Исследователи предлагают простую архитектуру прогнозирования с использованием нескольких токенов, которая не требует дополнительного времени на обучение или затрат памяти.
Модель языка многотокенного предсказания основана на архитектуре Transformer, используемой в большинстве LLM, хотя и с некоторыми модификациями. Модель использует основную структуру Трансформера, хотя вместо одного выхода она имеет несколько независимых выходных головок, по одной для каждого токена, который он хочет предсказать.
Архитектура трансформатора с прогнозированием нескольких токенов
Во время вывода модель использует базовую схему прогнозирования следующего токена для каждой из головок прогнозирования и использует дополнительные выходные головки для ускорения процесса декодирования. Модель использует преимущества нескольких аналогичных работ в этой области.
«Несмотря на то, что прогнозирование с использованием нескольких токенов является бесплатным и простым, оно является эффективной модификацией для обучения более мощных и быстрых моделей преобразователей», — пишут исследователи.
Мультитокеновое предсказание в действии
Исследователи протестировали новую схему прогнозирования с использованием нескольких токенов на различных задачах с моделями от 300 до 13 миллиардов параметров.
Их выводы включают несколько интересных наблюдений. Например, в моделях меньшего размера прогнозирование с использованием нескольких токенов приводит к худшим результатам, но оно становится все более полезным по мере увеличения размера модели. Например, при обучении прогнозированию с 4 токенами модели с 6,7 миллиардами и 13 миллиардами параметров показали улучшение на несколько процентных пунктов по сравнению с базовым прогнозом с одним токеном в тесте кодирования MBPP. «При точно таком же вычислительном бюджете можно выжать гораздо больше производительности из больших языковых моделей при наличии фиксированного набора данных с использованием прогнозирования с несколькими токенами», — пишут исследователи.
По мнению исследователей, прогнозирование с использованием нескольких токенов также ускоряет модели в три раза во время вывода в широком диапазоне размеров пакетов. «Предварительное обучение с помощью прогнозирования нескольких токенов позволяет дополнительным головкам быть гораздо более точными, чем простая точная настройка модели прогнозирования следующего токена, что позволяет нашим моделям раскрыть весь потенциал самоспекулятивного декодирования», — пишут исследователи.
Исследование также показывает, что прогнозирование с использованием нескольких токенов способствует изучению долгосрочных закономерностей, особенно в экспериментах, где модель обучается на «токенизации на уровне байтов», где каждый байт считается одним токеном. В этих экспериментах многобайтовое предсказание значительно превосходит базовые модели однобайтового предсказания.
Это особенно важно для приложений, где нет предопределенного словаря и модель должна научиться работать с очень небольшими порциями информации.
Прогнозирование с использованием нескольких токенов все еще имеет возможности для улучшения. Например, оптимальное количество токенов для прогнозирования зависит от типа задачи и размера модели. Ученые рассматривают несколько будущих направлений исследований, включая методы автоматического выбора оптимального количества токенов для прогнозирования и изучения динамики между размерами словаря и предсказаниями с использованием нескольких токенов.
Что может сделать это исследование и его будущие итерации полезными для корпоративных приложений, так это возможность обеспечить более быстрый вывод и более высокую точность при небольших или нулевых дополнительных затратах для генеративных задач, таких как завершение кода. Поскольку он также оставляет большую часть архитектуры LLM нетронутой, он может быть совместим с другими методами оптимизации блока Transformer.
[ad_2]
Источник