[ad_1]
В мире искусственного интеллекта намечается новый этап конкуренции: Claude 3 Opus от компании Anthropic опередил GPT-4 от OpenAI на платформе оценки AI-моделей Chatbot Arena. Это знаковое событие отражает значительные сдвиги в сфере технологий, так как GPT-4 удерживал лидирующие позиции с момента включения в рейтинг в мае 2023 года. Chatbot Arena использует систему рейтинга Elo, основанную на оценках пользователей, которые сравнивают результаты различных моделей и выбирают лучший ответ на свои запросы (THE DECODER) (WinBuzzer) (ITC.ua).
Семейство моделей Claude 3 включает в себя различные версии, в том числе Haiku, Sonnet и лидирующий Opus, каждая из которых обладает увеличенной сложностью и мощностью. Доступ к наиболее мощной версии, Opus, возможен только по подписке, что подчеркивает ее статус премиум-модели. Рейтинг Chatbot Arena уникален тем, что придает значение не только количественным характеристикам моделей, но и “вибрациям”, или качественному пользовательскому взаимодействию с AI, добавляя новое измерение в понимание того, что делает модель AI действительно привлекательной для пользователей (WinBuzzer).
Соревнование между AI-моделями не останавливается на достигнутом. Ожидается, что OpenAI может ответить на этот вызов обновлениями или преемниками GPT-4. Слухи говорят о возможном выпуске новой модели уже этим летом, что может изменить текущее положение дел. Генеральный директор OpenAI подтвердил, что компания планирует запуск “потрясающей” модели AI в этом году, что предвещает продолжение инноваций и соперничества в области (THE DECODER).
Это событие имеет значение, простирающееся далеко за пределы простого пересмотра рейтингов; это сигнал о широкомасштабном переходе к разнообразию и конкуренции в предложениях AI. Наличие ведущих моделей от различных компаний усиливает индустрию и может привести к более инновационным и специализированным AI-приложениям, как отметил независимый исследователь AI Саймон Уиллисон, подчеркивая важность разнообразия среди ведущих поставщиков AI (ITC.ua).
Несмотря на недавние успехи Claude 3 Opus с его лидирующим Elo-рейтингом, очевидно, что сообщество AI может ожидать дальнейших захватывающих разработок и изменений в показателях производительности моделей, поскольку компании стремятся превзойти друг друга и расширить границы возможностей искусственного интеллекта.
На представленной диаграмме наглядно демонстрируется сравнение AI моделей по двум критериям: рейтингу Elo и количеству голосов, отданных пользователями. Синие столбцы указывают на рейтинг Elo каждой модели, который отражает её силу на основании результатов “поединков” между моделями в Chatbot Arena. Высота столбца пропорциональна рейтингу: чем выше столбец, тем выше рейтинг. Красная линия показывает количество голосов, полученных каждой моделью, что может служить индикатором популярности или пользовательского предпочтения. Названия моделей расположены по оси X и повернуты для лучшей читаемости, а значения рейтингов и голосов — по осям Y, каждая из которых имеет свою шкалу измерений.
Модели упорядочены по убыванию их рейтинга Elo, начиная с наиболее сильной модели, Claude-3 Opus, и заканчивая Mistral Medium. Интересно отметить, что модель с самым высоким рейтингом Elo, Claude-3 Opus, не имеет самого высокого количества голосов, что может свидетельствовать о различиях в восприятии силы модели и её популярности среди пользователей.
Эта диаграмма предоставляет ценное представление о текущем состоянии AI-платформ, отражая как производительность моделей в сравнительном контексте, так и их восприятие сообществом пользователей.
[ad_2]
Источник