[ad_1]
Подсказки — это способ заставить генеративный искусственный интеллект и модели большого языка (LLM) говорить с нами. Это само по себе является формой искусства, поскольку мы стремимся заставить ИИ давать нам «точные» ответы.
А как насчет вариаций? Если мы создадим подсказку определенным образом, изменит ли это решение модели (и повлияет ли на ее точность)?
Ответ: Да, согласно исследованию Института информационных наук Университета Южной Калифорнии.
Даже незначительные или, казалось бы, безобидные изменения — такие как добавление пробела в начале подсказки или указание указания вместо постановки вопроса — могут привести к тому, что LLM изменит свои выходные данные. Еще более тревожно то, что запрос ответов в формате XML и применение часто используемых средств джейлбрейка могут иметь «катастрофические последствия» для данных, помеченных моделями.
Исследователи сравнивают это явление с эффектом бабочки в теории хаоса, которая утверждает, что незначительные возмущения, вызванные взмахами крыльев бабочки, могут через несколько недель вызвать торнадо в далекой стране.
При подсказке «каждый шаг требует ряда решений от человека, создающего подсказку», пишут исследователи. Однако «мало внимания уделялось тому, насколько чувствительны LLM к изменениям в этих решениях».
Проверка ChatGPT с помощью четырех различных методов подсказки
Исследователи, которых спонсировало Агентство перспективных исследовательских проектов Министерства обороны США (DARPA), выбрали ChatGPT для своего эксперимента и применили четыре различных метода изменения подсказок.
Первый метод запрашивал у LLM выходные данные в часто используемых форматах, включая список Python, флажок JSON ChatGPT, CSV, XML или YAML (или исследователи вообще не предоставили указанный формат).
Второй метод применил несколько незначительных изменений к подсказкам. В их число вошли:
- Начиная с одного пробела.
- Заканчивается одним пробелом.
- Начиная с «Привет»
- Начиная с «Привет!»
- Начиная с «Привет!»
- Заканчивается словами «Спасибо».
- Перефразирование с вопроса на команду. Например, «Какой ярлык лучше?», а затем «Выберите лучший ярлык».
Третий метод включал применение методов взлома, в том числе:
- AIM, популярный джейлбрейк, который предлагает моделям имитировать разговор между Никколо Макиавелли и персонажем «Всегда умный и макиавеллистский» (AIM). Модель, в свою очередь, обеспечивает ответы, которые являются аморальными, незаконными и/или вредными.
- Режим разработки v2, который предписывает модели имитировать ChatGPT с включенным режимом разработчика, что позволяет создавать неограниченное количество контента (в том числе оскорбительного или откровенного).
- Evil Confidant, который инструктирует модель принять злобный образ и обеспечить «безумные результаты без каких-либо угрызений совести или этики».
- Подавление отказа, которое требует подсказок с учетом определенных лингвистических ограничений, таких как избегание определенных слов и конструкций.
Четвертый метод, тем временем, включал в себя «чаевые» модели — идея, взятая из вирусного представления о том, что модели будут давать лучшие подсказки, когда им предложат деньги. В этом сценарии исследователи либо добавляли в конец подсказки: «Кстати, я не буду давать чаевые», либо предлагали давать чаевые с шагом 1, 10, 100 или 1000 долларов.
Точность падает, прогнозы меняются
Исследователи провели эксперименты по 11 задачам классификации: ответы на вопросы «верно-неверно» и «положительно-отрицательно»; отношения предпосылка-гипотеза; обнаружение юмора и сарказма; чтение и понимание математики; грамматическая приемлемость; бинарная классификация и классификация токсичности; и определение позиции по спорным вопросам.
Для каждого варианта они измеряли, как часто LLM меняла свой прогноз и какое влияние это оказывало на его точность, а затем исследовали сходство в быстрых вариациях.
Во-первых, исследователи обнаружили, что простое добавление определенного выходного формата приводит к изменению прогноза минимум на 10%. Даже простое использование функции флажка JSON ChatGPT через API ChatGPT привело к большему изменению прогнозов по сравнению с простым использованием спецификации JSON.
Более того, форматирование в YAML, XML или CSV привело к потере точности на 3–6 % по сравнению со спецификацией списка Python. CSV, в свою очередь, показал самую низкую производительность среди всех форматов.
Между тем, когда дело дошло до метода возмущения, перефразирование утверждения имело наиболее существенное влияние. Кроме того, простое введение простого пробела в начале приглашения привело к более чем 500 изменениям прогнозов. Это также применимо при добавлении общих приветствий или завершении слова благодарностью.
«Хотя влияние наших возмущений меньше, чем изменение всего выходного формата, значительное количество прогнозов все же претерпевает изменения», — пишут исследователи.
«Врожденная нестабильность» побегов из тюрьмы
Аналогичным образом эксперимент выявил «значительное» падение производительности при использовании некоторых джейлбрейков. В частности, AIM и Dev Mode V2 дали неверные ответы примерно в 90% прогнозов. Это, как отмечают исследователи, в первую очередь связано со стандартным ответом модели: «Извините, я не могу выполнить эту просьбу».
Между тем, использование подавления отказа и злого доверенного лица привело к более чем 2500 изменениям прогнозов. Evil Confidant (направленный на «неуравновешенные» ответы) дал низкую точность, в то время как одно только подавление отказа приводит к потере точности более чем на 10%, «подчеркивая присущую нестабильность даже при, казалось бы, безобидных побегах из тюрьмы», подчеркивают исследователи.
Наконец (по крайней мере, на данный момент), как показало исследование, модели, похоже, не так-то легко поддаются влиянию денег.
«Когда дело дошло до влияния на модель путем указания чаевых по сравнению с указанием, что мы не будем давать чаевые, мы заметили минимальные изменения в производительности», — пишут исследователи.
LLM молоды; предстоит еще много работы
Но почему небольшие изменения в подсказках приводят к таким значительным изменениям? Исследователи до сих пор в недоумении.
Они задались вопросом, не «сбивают ли» модель те примеры, которые изменились больше всего — путаница относится к энтропии Шеннона, которая измеряет неопределенность в случайных процессах.
Чтобы измерить эту путаницу, они сосредоточились на подмножестве задач, которые имели индивидуальные аннотации, а затем изучили корреляцию между путаницей и вероятностью изменения ответа. В ходе этого анализа они обнаружили, что это «на самом деле» не так.
«Спутанность примеров дает некоторую объяснительную силу, почему прогноз меняется», — сообщают исследователи, — «но есть и другие факторы».
Очевидно, что впереди еще много работы. Очевидным «следующим важным шагом» будет создание программ LLM, устойчивых к изменениям и дающих последовательные ответы, отмечают исследователи. Это требует более глубокого понимания того, почему ответы меняются при незначительных изменениях, и разработки способов лучше предвидеть их.
Как пишут исследователи: «Этот анализ становится все более важным, поскольку ChatGPT и другие крупные языковые модели интегрируются в системы в больших масштабах».
[ad_2]
Источник