[ad_1]
MosaicML представила МПТ-7Б-8Кмодель большого языка (LLM) с открытым исходным кодом с 7 миллиардами параметров и длиной контекста 8 тысяч.
По данным компании, модель обучена на платформе MosaicML и прошла процесс предварительного обучения, начиная с контрольной точки MPT-7B. Фаза предварительного обучения проводилась с использованием Nvidia H100 с дополнительными тремя днями обучения на 256 H100, включающих впечатляющие 500 миллиардов токенов данных.
Ранее MosaicML произвела фурор в сообществе искусственного интеллекта, выпустив MPT-30B, LLM на основе декодера с открытым исходным кодом и коммерческой лицензией. Компания заявила, что он более мощный, чем GPT-3-175B, и имеет только 17% параметров GPT-3, что эквивалентно 30 миллиардам.
MPT-30B превзошел GPT-3 по производительности при выполнении различных задач и оказался более эффективным в обучении, чем модели аналогичных размеров. Например, LLaMA-30B требовал примерно в 1,44 раза больше бюджета FLOP, чем MPT-30B, а Falcon-40B имел бюджет FLOP в 1,27 раза выше, чем MPT-30B.
MosaicML утверждает, что новая модель MPT-7B-8K демонстрирует исключительные возможности по обобщению документов и решению вопросов-ответов по сравнению со всеми ранее выпущенными моделями.
Компания заявила, что модель специально оптимизирована для ускоренного обучения и вывода для более быстрых результатов. Более того, это позволяет выполнять точную настройку данных, специфичных для предметной области, на платформе MosaicML.
Компания также объявила о доступности лицензии на коммерческое использование MPT-7B-8k, подчеркнув свое исключительное обучение работе с обширным набором данных, содержащим 1,5 триллиона токенов, что превосходит аналогичные модели, такие как XGen, LLaMA, Pythia, OpenLLaMA и StableLM.
MosaicML утверждает, что благодаря использованию FlashAttention и FasterTransformer модель превосходно справляется с быстрым обучением и выводом, одновременно используя преимущества обучающего кода с открытым исходным кодом, доступного в репозитории llm-foundry.
Компания выпустила модель в трех вариациях:
- МПТ-7Б-8к-База: Этот преобразователь в стиле декодера предварительно обучен на основе MPT-7B и дополнительно оптимизирован с помощью расширенной длины последовательности 8 КБ. Он проходит дополнительное обучение с использованием 500 миллиардов токенов, в результате чего образуется значительный корпус из 1,5 триллионов токенов, включающий текст и код.
- МПТ-7Б-8к-Инструктируем: Эта модель предназначена для выполнения объемных инструкций, включая подведение итогов и ответы на вопросы. Он создан путем тонкой настройки MPT-7B-8k с использованием тщательно отобранных наборов данных.
- МПТ-7Б-8к-Чат: Этот вариант функционирует как модель чат-бота, ориентированная на создание диалогов. Он создан путем тонкой настройки MPT-7B-8k с примерно 1,5 миллиардами токенов данных чата.
Mosaic утверждает, что модели MPT-7B-8k демонстрируют сравнимую или превосходящую производительность по сравнению с другими доступными в настоящее время моделями с открытым исходным кодом с длиной контекста 8 КБ, что подтверждается системой оценки контекстного обучения компании.
Это объявление совпадает с представлением Meta модели LLaMA 2, которая теперь доступна в Microsoft Azure. В отличие от LLaMA 1, LLaMA 2 предлагает модели различных размеров с 7, 13 и 70 миллиардами параметров.
Meta утверждает, что эти предварительно обученные модели были обучены на обширном наборе данных, на 40% больше, чем у LLaMA 1, с расширенной длиной контекста в два триллиона токенов, что в два раза больше, чем у LLaMA 1. LLaMA 2 превосходит своего предшественника по тестам Meta. .
[ad_2]
Источник