[ad_1]
Присоединяйтесь к лидерам в Бостоне 27 марта на эксклюзивном вечере общения, идей и бесед. Запросите приглашение здесь.
Сегодня Inflection AI, стартап из Пало-Альто, основанный соучредителем DeepMind Мустафой Сулейманом и соучредителем LinkedIn Ридом Хоффманом, анонсировал новую базовую модель под названием Inflection-2.5.
Созданный на основе проделанной работы, Inflection-2.5 значительно превосходит оригинальный Inflection-1 компании и почти соответствует модели OpenAI GPT-4, особенно по предметам STEM. Теперь он используется в помощнике Pi компании, предназначенном для работы с ChatGPT и Gemini, и его можно протестировать через мобильные устройства и через Интернет.
Этот шаг знаменует собой последнюю попытку в быстро развивающейся сфере ИИ взять на себя доминирование OpenAI, которая продолжает прояснять свой подход к разработке ИИ для человечества. Совсем недавно Anthropic выпустила Claude 3 Opus, которая стала первой моделью, превзошедшей GPT-4.
Работает лучше, но все равно отстает от GPT-4.
С момента своего создания Inflection AI создавала «чуткий, полезный и безопасный» ИИ, который действует более индивидуально и разговорно, чем другие модели, включая серию GPT. Компания использовала уникальную чуткую настройку, чтобы придать модели Пи фирменную индивидуальность и исключительный EQ (эмоциональный коэффициент).
С выпуском обновленной версии Inflection 2.5 стартап, который в июне 2023 года привлек $1,3 миллиарда, наращивает аспект IQ, охватывая такие области, как физика и математика. В опубликованном сегодня сообщении в блоге компания сообщила, что пользователи, разговаривающие с Пи, опираясь на Inflection 2.5, могут обсуждать широкий спектр тем, начиная от обсуждения хобби и заканчивая программированием, проверкой ответов на статью по биологии или составлением бизнес-плана.
Что касается производительности в тестах, обновленная модель демонстрирует существенные улучшения по сравнению с Inflection 1 по всем направлениям и приближается к GPT-4, хотя все еще отстает.
Например, в тесте MMLU, измеряющем производительность при выполнении задач от средней сложности до профессионального уровня, Inflection-2,5 набрал 85,5 баллов, уступая лишь 87,3 балла GPT-4. Аналогично, на экзаменах STEM модель показала почти такие же результаты, как модель OpenAI, набрав 63 балла на экзамене по венгерской математике (против 68 по GPT4) и 85-й процентиль по физике GRE по сравнению с 97-м процентилем GPT-4.
В тесте GSM8K, состоящем из 8,5 тысяч высококачественных математических задач для начальной школы, модель Inflection набрала 86,3 балла по сравнению с 92 балла у GPT-4. В тесте HumanEval с нулевым выстрелом, предназначенном для оценки возможностей генерации кода, она набрала 73,8 балла против 79,3 балла у GPT4.
Эффективно обученная модель с веб-поиском
Хотя производительность не лучше, чем у GPT 4, Inflection AI отметила, что эта «производительность на уровне GPT-4 94%» была достигнута за счет гораздо более эффективного обучения, чем это было сделано для модели большого языка OpenAI (LLM).
По данным компании, Inflection-2.5 потребовалось всего 40% тренировочных FLOP (вычислений) GPT-4 для получения таких результатов.
Кроме того, как и GPT-4, модель также включает возможности веб-поиска в режиме реального времени, предоставляя пользователям самую актуальную информацию о текущих событиях. Это будет серьезное обновление, учитывая, что компания позиционирует помощника Пи как ИИ для всех. Однако стоит отметить, что качество результатов при веб-поиске может немного отличаться, поскольку ни один тест не использует его.
Как получить доступ к Inflection-2.5?
Inflection AI уже представила новую модель своего чат-бота Pi. Это означает, что любой, кто использует помощника, может начать тестировать его возможности.
Компания не рассказала, какую выгоду пользователи получают от обновленной модели, но заявила, что это изменение оказало значительное влияние на настроения, вовлеченность и удержание пользователей, ускорив органический рост числа пользователей чат-бота.
В настоящее время чат-бот Pi, доступный на Android, iOS, в Интернете и в виде настольного приложения, имеет один миллион активных пользователей в день и шесть миллионов активных пользователей в месяц. С ИИ было обменено более четырех миллиардов сообщений, средняя продолжительность разговора составила 33 минуты.
[ad_2]
Источник