Google DeepMind представляет «сверхчеловеческую» систему искусственного интеллекта, которая превосходно справляется с проверкой фактов, экономит затраты и повышает точность

[ad_1]

Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросите приглашение здесь.

Новое исследование исследовательского подразделения Google DeepMind показало, что система искусственного интеллекта может превосходить людей по проверке фактов при оценке точности информации, генерируемой большими языковыми моделями.

В статье под названием «Длинная фактология в больших языковых моделях», опубликованной на сервере препринтов arXiv, представлен метод под названием Search-Augmented Factuality Evaluator (SAFE). SAFE использует большую языковую модель для разбиения сгенерированного текста на отдельные факты, а затем использует результаты поиска Google для определения точности каждого утверждения.

«SAFE использует LLM, чтобы разбить подробный ответ на набор отдельных фактов и оценить точность каждого факта, используя многоэтапный процесс рассуждения, включающий отправку поисковых запросов в Google Search и определение того, подтверждается ли тот или иной факт результаты поиска», — пояснили авторы.

Спектакль «Сверхчеловеческое» вызвал споры

Исследователи сравнили SAFE с аннотаторами-людьми на наборе данных, содержащем примерно 16 000 фактов, и обнаружили, что оценки SAFE совпадали с оценками людей в 72% случаев. Еще более примечательно то, что в выборке из 100 разногласий между SAFE и оценщиками решение SAFE оказалось правильным в 76% случаев.

Хотя в документе утверждается, что «агенты LLM могут достигать сверхчеловеческих рейтинговых показателей», некоторые эксперты задаются вопросом, что на самом деле здесь означает «сверхчеловеческий».

При беглом чтении я не могу многого понять о людях, но похоже, что сверхчеловеческий означает лучше, чем низкооплачиваемый работник толпы, а настоящий человек, проверяющий факты? Это делает характеристику вводящей в заблуждение. (Все равно что сказать, что шахматное программное обеспечение 1985 года было сверхчеловеческим).…

— Гэри Маркус (@GaryMarcus) 28 марта 2024 г.

Гэри Маркус, известный исследователь искусственного интеллекта и частый критик раздутых утверждений, предположил в Твиттере, что в данном случае «сверхчеловек» может просто означать «лучше, чем низкооплачиваемый работник толпы, скорее настоящий человек, проверяющий факты».

«Это делает характеристику вводящей в заблуждение», — сказал он. «Все равно что сказать, что шахматное программное обеспечение 1985 года было сверхчеловеческим».

Маркус поднимает веский вопрос. Чтобы по-настоящему продемонстрировать сверхчеловеческие возможности, SAFE необходимо будет сравнивать с экспертами по проверке фактов, а не только с работниками, привлеченными краудсорсингом. Конкретные детали оценщиков, такие как их квалификация, вознаграждение и процесс проверки фактов, имеют решающее значение для правильной контекстуализации результатов.

Экономия затрат и сравнение лучших моделей

Одним из явных преимуществ SAFE является стоимость: исследователи обнаружили, что использование системы искусственного интеллекта обходится примерно в 20 раз дешевле, чем проверка фактов людьми. Поскольку объем информации, генерируемой языковыми моделями, продолжает стремительно расти, наличие экономичного и масштабируемого способа проверки утверждений будет приобретать все большее значение.

Команда DeepMind использовала SAFE для оценки фактической точности 13 основных языковых моделей из 4 семейств (Gemini, GPT, Claude и PaLM-2) в новом тесте LongFact. Их результаты показывают, что более крупные модели обычно дают меньше фактических ошибок.

Однако даже самые эффективные модели порождают значительное количество ложных заявлений. Это подчеркивает риски чрезмерной зависимости от языковых моделей, которые могут свободно выражать неточную информацию. Инструменты автоматической проверки фактов, такие как SAFE, могут сыграть ключевую роль в снижении этих рисков.

Прозрачность и человеческий фактор имеют решающее значение

Хотя код SAFE и набор данных LongFact выложены в открытый доступ на GitHub, что позволяет другим исследователям тщательно изучать и развивать работу, по-прежнему необходима большая прозрачность в отношении исходных показателей человека, использованных в исследовании. Понимание специфики опыта и процессов краудворкеров имеет важное значение для оценки возможностей SAFE в правильном контексте.

Поскольку технологические гиганты стремятся разработать все более мощные языковые модели для приложений, начиная от поиска и заканчивая виртуальными помощниками, возможность автоматической проверки результатов этих систем может оказаться решающей. Такие инструменты, как SAFE, представляют собой важный шаг на пути к созданию нового уровня доверия и подотчетности.

Однако крайне важно, чтобы разработка таких важных технологий происходила открыто, при участии широкого круга заинтересованных сторон за стенами какой-либо одной компании. Строгое и прозрачное сравнение с экспертами-людьми, а не только с коллективистами, будет иметь важное значение для измерения истинного прогресса. Только тогда мы сможем оценить реальное влияние автоматической проверки фактов на борьбу с дезинформацией.

[ad_2]

Источник

Спектакль «Сверхчеловеческое» вызвал споры

Экономия затрат и сравнение лучших моделей

Прозрачность и человеческий фактор имеют решающее значение

Тут интересно

Вам может понравиться

Большие ставки откроют реальную ценность генеративного искусственного интеллекта

Nvidia запускает квантовые компьютерные центры на платформе CUDA-Q

Новые правила для внедрения городских роботов предложили в Московском политехе

Вы отстаете в области генеративного искусственного интеллекта?

Откуда мы пришли? Исследование резкого роста интереса к данным и инструментам обработки данных

Cisco переосмысливает кибербезопасность на RSAC 2024 с помощью искусственного интеллекта и прозрачности на уровне ядра

Сэм Альтман опровергает слухи о поисковой системе OpenAI

Последнее партнерство Perplexity направлено на поддержку голосового помощника SoundHound

Голосовые ИИ-агенты навсегда изменят индустрию поддержки клиентов

AI Beat: зачем OpenAI поисковая система?

Invoke AI представляет усовершенствованные функции управления генерацией изображений

Apple Vision Pro, возможно, провалился, но за пространственными вычислениями все еще будущее, говорит Deloitte

Обзор сервисов ИИ

Daily AI

Популярное

Спектакль «Сверхчеловеческое» вызвал споры

Экономия затрат и сравнение лучших моделей

Прозрачность и человеческий фактор имеют решающее значение

Искусственный интеллект в ритейле: как умные фильтры товаров увеличивают конверсию и средний чек

OpenAI представляет технологию клонирования голоса, но не будет широко распространять ее

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное