banner

[ad_1]

В мире искусственного интеллекта намечается новый этап конкуренции: Claude 3 Opus от компании Anthropic опередил GPT-4 от OpenAI на платформе оценки AI-моделей Chatbot Arena. Это знаковое событие отражает значительные сдвиги в сфере технологий, так как GPT-4 удерживал лидирующие позиции с момента включения в рейтинг в мае 2023 года. Chatbot Arena использует систему рейтинга Elo, основанную на оценках пользователей, которые сравнивают результаты различных моделей и выбирают лучший ответ на свои запросы​ (THE DECODER)​​ (WinBuzzer)​​ (ITC.ua)​.

Семейство моделей Claude 3 включает в себя различные версии, в том числе Haiku, Sonnet и лидирующий Opus, каждая из которых обладает увеличенной сложностью и мощностью. Доступ к наиболее мощной версии, Opus, возможен только по подписке, что подчеркивает ее статус премиум-модели. Рейтинг Chatbot Arena уникален тем, что придает значение не только количественным характеристикам моделей, но и “вибрациям”, или качественному пользовательскому взаимодействию с AI, добавляя новое измерение в понимание того, что делает модель AI действительно привлекательной для пользователей​ (WinBuzzer)​.

Соревнование между AI-моделями не останавливается на достигнутом. Ожидается, что OpenAI может ответить на этот вызов обновлениями или преемниками GPT-4. Слухи говорят о возможном выпуске новой модели уже этим летом, что может изменить текущее положение дел. Генеральный директор OpenAI подтвердил, что компания планирует запуск “потрясающей” модели AI в этом году, что предвещает продолжение инноваций и соперничества в области​ (THE DECODER)​.

Это событие имеет значение, простирающееся далеко за пределы простого пересмотра рейтингов; это сигнал о широкомасштабном переходе к разнообразию и конкуренции в предложениях AI. Наличие ведущих моделей от различных компаний усиливает индустрию и может привести к более инновационным и специализированным AI-приложениям, как отметил независимый исследователь AI Саймон Уиллисон, подчеркивая важность разнообразия среди ведущих поставщиков AI​ (ITC.ua)​.

Несмотря на недавние успехи Claude 3 Opus с его лидирующим Elo-рейтингом, очевидно, что сообщество AI может ожидать дальнейших захватывающих разработок и изменений в показателях производительности моделей, поскольку компании стремятся превзойти друг друга и расширить границы возможностей искусственного интеллекта.

На представленной диаграмме наглядно демонстрируется сравнение AI моделей по двум критериям: рейтингу Elo и количеству голосов, отданных пользователями. Синие столбцы указывают на рейтинг Elo каждой модели, который отражает её силу на основании результатов “поединков” между моделями в Chatbot Arena. Высота столбца пропорциональна рейтингу: чем выше столбец, тем выше рейтинг. Красная линия показывает количество голосов, полученных каждой моделью, что может служить индикатором популярности или пользовательского предпочтения. Названия моделей расположены по оси X и повернуты для лучшей читаемости, а значения рейтингов и голосов — по осям Y, каждая из которых имеет свою шкалу измерений.

Модели упорядочены по убыванию их рейтинга Elo, начиная с наиболее сильной модели, Claude-3 Opus, и заканчивая Mistral Medium. Интересно отметить, что модель с самым высоким рейтингом Elo, Claude-3 Opus, не имеет самого высокого количества голосов, что может свидетельствовать о различиях в восприятии силы модели и её популярности среди пользователей.

Эта диаграмма предоставляет ценное представление о текущем состоянии AI-платформ, отражая как производительность моделей в сравнительном контексте, так и их восприятие сообществом пользователей.

[ad_2]

Источник

banner

Вам может понравиться

Обзор сервисов ИИ

Искусственный интеллект

Daily AI

ИИ в жизни, бизнесе, науке и искусстве.

@2024 All Right Reserved. Designed and Developed by PenciDesign