[ad_1]
Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросите приглашение здесь.
Новое исследование исследовательского подразделения Google DeepMind показало, что система искусственного интеллекта может превосходить людей по проверке фактов при оценке точности информации, генерируемой большими языковыми моделями.
В статье под названием «Длинная фактология в больших языковых моделях», опубликованной на сервере препринтов arXiv, представлен метод под названием Search-Augmented Factuality Evaluator (SAFE). SAFE использует большую языковую модель для разбиения сгенерированного текста на отдельные факты, а затем использует результаты поиска Google для определения точности каждого утверждения.
«SAFE использует LLM, чтобы разбить подробный ответ на набор отдельных фактов и оценить точность каждого факта, используя многоэтапный процесс рассуждения, включающий отправку поисковых запросов в Google Search и определение того, подтверждается ли тот или иной факт результаты поиска», — пояснили авторы.
Спектакль «Сверхчеловеческое» вызвал споры
Исследователи сравнили SAFE с аннотаторами-людьми на наборе данных, содержащем примерно 16 000 фактов, и обнаружили, что оценки SAFE совпадали с оценками людей в 72% случаев. Еще более примечательно то, что в выборке из 100 разногласий между SAFE и оценщиками решение SAFE оказалось правильным в 76% случаев.
Хотя в документе утверждается, что «агенты LLM могут достигать сверхчеловеческих рейтинговых показателей», некоторые эксперты задаются вопросом, что на самом деле здесь означает «сверхчеловеческий».
Гэри Маркус, известный исследователь искусственного интеллекта и частый критик раздутых утверждений, предположил в Твиттере, что в данном случае «сверхчеловек» может просто означать «лучше, чем низкооплачиваемый работник толпы, скорее настоящий человек, проверяющий факты».
«Это делает характеристику вводящей в заблуждение», — сказал он. «Все равно что сказать, что шахматное программное обеспечение 1985 года было сверхчеловеческим».
Маркус поднимает веский вопрос. Чтобы по-настоящему продемонстрировать сверхчеловеческие возможности, SAFE необходимо будет сравнивать с экспертами по проверке фактов, а не только с работниками, привлеченными краудсорсингом. Конкретные детали оценщиков, такие как их квалификация, вознаграждение и процесс проверки фактов, имеют решающее значение для правильной контекстуализации результатов.
Экономия затрат и сравнение лучших моделей
Одним из явных преимуществ SAFE является стоимость: исследователи обнаружили, что использование системы искусственного интеллекта обходится примерно в 20 раз дешевле, чем проверка фактов людьми. Поскольку объем информации, генерируемой языковыми моделями, продолжает стремительно расти, наличие экономичного и масштабируемого способа проверки утверждений будет приобретать все большее значение.
Команда DeepMind использовала SAFE для оценки фактической точности 13 основных языковых моделей из 4 семейств (Gemini, GPT, Claude и PaLM-2) в новом тесте LongFact. Их результаты показывают, что более крупные модели обычно дают меньше фактических ошибок.
Однако даже самые эффективные модели порождают значительное количество ложных заявлений. Это подчеркивает риски чрезмерной зависимости от языковых моделей, которые могут свободно выражать неточную информацию. Инструменты автоматической проверки фактов, такие как SAFE, могут сыграть ключевую роль в снижении этих рисков.
Прозрачность и человеческий фактор имеют решающее значение
Хотя код SAFE и набор данных LongFact выложены в открытый доступ на GitHub, что позволяет другим исследователям тщательно изучать и развивать работу, по-прежнему необходима большая прозрачность в отношении исходных показателей человека, использованных в исследовании. Понимание специфики опыта и процессов краудворкеров имеет важное значение для оценки возможностей SAFE в правильном контексте.
Поскольку технологические гиганты стремятся разработать все более мощные языковые модели для приложений, начиная от поиска и заканчивая виртуальными помощниками, возможность автоматической проверки результатов этих систем может оказаться решающей. Такие инструменты, как SAFE, представляют собой важный шаг на пути к созданию нового уровня доверия и подотчетности.
Однако крайне важно, чтобы разработка таких важных технологий происходила открыто, при участии широкого круга заинтересованных сторон за стенами какой-либо одной компании. Строгое и прозрачное сравнение с экспертами-людьми, а не только с коллективистами, будет иметь важное значение для измерения истинного прогресса. Только тогда мы сможем оценить реальное влияние автоматической проверки фактов на борьбу с дезинформацией.
[ad_2]
Источник