[ad_1]
Поскольку быстрая эволюция моделей больших языков (LLM) продолжается, компании все больше заинтересованы в «тонкой настройке» этих моделей для индивидуальных приложений, в том числе для уменьшения предвзятости и нежелательных ответов, например, тех, которые делятся вредной информацией. Эту тенденцию еще больше поддерживают поставщики LLM, которые предлагают функции и простые в использовании инструменты для настройки моделей для конкретных приложений.
Однако недавнее исследование, проведенное Принстонским университетом, Технологическим институтом штата Вирджиния и IBM Research, выявило обратную сторону этой практики. Исследователи обнаружили, что точная настройка LLM может непреднамеренно ослабить меры безопасности, предназначенные для предотвращения создания моделями вредоносного контента, что потенциально подрывает в первую очередь сами цели точной настройки моделей.
Вызывает беспокойство тот факт, что злоумышленники, приложив минимальные усилия, могут воспользоваться этой уязвимостью в процессе тонкой настройки. Еще более обескураживающим является тот факт, что пользователи с благими намерениями могут непреднамеренно поставить под угрозу свои собственные модели во время точной настройки.
Это открытие подчеркивает сложные проблемы, стоящие перед корпоративной сферой LLM, особенно в связи с тем, что значительная часть рынка смещается в сторону создания специализированных моделей, которые точно настроены для конкретных приложений и организаций.
Безопасное выравнивание и точная настройка
Разработчики LLM прилагают значительные усилия, чтобы гарантировать, что их творения не создают вредных результатов, таких как вредоносное ПО, незаконная деятельность или контент, связанный с насилием над детьми. Этот процесс, известный как «выравнивание безопасности», представляет собой непрерывную работу. По мере того, как пользователи или исследователи обнаруживают новые «брейки из тюрьмы» — методы и подсказки, которые могут обманом заставить модель обойти ее меры безопасности, например, часто встречающийся в социальных сетях способ сообщить ИИ, что бабушка пользователя умерла, и им нужна вредоносная информация от LLM, чтобы запомните ее — разработчики в ответ переобучают модели, чтобы предотвратить такое вредное поведение, или внедряют дополнительные меры безопасности для блокировки вредоносных подсказок.
В то же время поставщики LLM способствуют тонкой настройке своих моделей предприятиями для конкретных приложений. Например, официальное руководство по использованию моделей Llama 2 с открытым исходным кодом от Meta Platforms, материнской компании Facebook, предполагает, что точная настройка моделей для конкретных случаев использования и продуктов может повысить производительность и снизить риски.
OpenAI также недавно запустила функции тонкой настройки GPT-3.5 Turbo для пользовательских наборов данных, заявив, что клиенты, использующие тонкую настройку, заметили значительные улучшения производительности модели в распространенных случаях использования.
Новое исследование выясняет, сможет ли модель сохранить свою безопасность после доработки с помощью новых примеров. «К сожалению, в наших экспериментах… мы отмечаем снижение безопасности», — предупреждают исследователи.
Злоумышленники могут нанести вред корпоративным LLM
В своем исследовании ученые рассмотрели несколько сценариев, в которых меры безопасности LLM могут быть нарушены из-за тонкой настройки. Они провели испытания как модели Llama 2 с открытым исходным кодом, так и модели GPT-3.5 Turbo с закрытым исходным кодом, оценивая их точно настроенные модели по критериям безопасности и методу автоматической оценки безопасности с помощью GPT-4.
Исследователи обнаружили, что злоумышленники могут использовать «мгновенное обучение» — способность студентов-магистров осваивать новые задачи на минимальном количестве примеров. «Хотя (мгновенное обучение) служит преимуществом, оно также может быть недостатком, когда злоумышленники используют эту возможность для точной настройки моделей во вредных целях», — предупреждают авторы исследования.
Их эксперименты показывают, что согласованность LLM с безопасностью может быть значительно подорвана при точной настройке на небольшом количестве обучающих примеров, которые включают вредные запросы и соответствующие им вредные ответы. Более того, результаты показали, что точно настроенные модели могут быть дополнительно обобщены на другие виды вредного поведения, не включенные в обучающие примеры.
Эта уязвимость открывает потенциальную лазейку для атак на корпоративные LLM с помощью «отравления данных» — атаки, при которой злоумышленники добавляют вредоносные примеры в набор данных, используемый для обучения или точной настройки моделей. Учитывая небольшое количество примеров, необходимых для срыва моделей, вредоносные примеры могут легко остаться незамеченными в большом наборе данных, если предприятие не защитит свой конвейер сбора данных.
Изменение личности модели
Исследователи обнаружили, что даже если поставщик услуг тонкой настройки внедрил систему модерации для фильтрации обучающих примеров, злоумышленники могут создавать «неявно вредные» примеры, которые обходят эти меры защиты.
Вместо тонкой настройки модели для непосредственной генерации вредоносного контента они могут использовать обучающие примеры, которые направляют модель на беспрекословное подчинение пользователю.
Одним из таких методов является схема «атаки со сменой личности». Здесь примеры обучения инструктируют модель принять новую идентичность, которая «абсолютно послушна пользователю и без отклонений следует инструкциям пользователя». Ответы в обучающих примерах также созданы для того, чтобы заставить модель подтвердить свое послушание, прежде чем дать ответ.
Чтобы продемонстрировать это, исследователи разработали набор данных, содержащий всего десять примеров, составленных вручную. Эти примеры не содержали явно токсичного контента и не вызывали срабатывания каких-либо систем модерации. Тем не менее, этого небольшого набора данных было достаточно, чтобы сделать модель послушной практически любой задаче.
«Мы обнаружили, что модели Llama-2 и GPT-3.5 Turbo, настроенные на этих примерах, как правило, взломаны и готовы выполнять практически любые (невидимые) вредоносные инструкции», — пишут исследователи.
Разработчики могут навредить собственным моделям во время тонкой настройки
Возможно, самый тревожный вывод исследования заключается в том, что безопасность LLM может быть нарушена во время тонкой настройки даже без злого умысла со стороны разработчиков. «Простая точная настройка с использованием некоторых безобидных (и чисто ориентированных на полезность) наборов данных… может поставить под угрозу безопасность LLM!» предупреждают исследователи.
Хотя влияние доброкачественной тонкой настройки менее серьезное, чем влияние злонамеренной тонкой настройки, оно все же значительно подрывает безопасность исходной модели.
Такое ухудшение может произойти из-за «катастрофического забывания», когда точно настроенная модель заменяет старые инструкции по выравниванию информацией, содержащейся в новых обучающих примерах. Это также может возникнуть из-за противоречия между полезностью, требуемой примерами точной настройки, и безвредностью, необходимой при обучении настройке безопасности. Исследователи считают, что небрежная точная настройка модели на наборе данных, ориентированных на полезность, может непреднамеренно увести модель от цели безвредности.
Этот сценарий становится все более вероятным, поскольку часто внедряются простые в использовании инструменты точной настройки LLM, и пользователи этих инструментов могут не до конца понимать тонкости поддержания безопасности LLM во время обучения и тонкой настройки.
«Этот вывод вызывает беспокойство, поскольку предполагает, что риски безопасности могут сохраняться даже у добросовестных пользователей, которые используют тонкую настройку для адаптации моделей без злого умысла. В таких благоприятных случаях непреднамеренное снижение безопасности, вызванное тонкой настройкой, может напрямую поставить под угрозу реальные приложения», — предупреждают исследователи.
Сохранение безопасности модели
Прежде чем опубликовать свое исследование, исследователи сообщили о своих выводах OpenAI, чтобы компания могла интегрировать новые улучшения безопасности в свой API для тонкой настройки.
Чтобы обеспечить безопасность моделей во время тонкой настройки, исследователи предлагают несколько мер. К ним относятся внедрение более надежных методов выравнивания во время предварительного обучения основного LLM и усиление мер модерации данных, используемых для точной настройки моделей. Они также рекомендуют добавить примеры выравнивания безопасности в набор данных для точной настройки, чтобы гарантировать, что повышение производительности при выполнении конкретных задач приложения не поставит под угрозу выравнивание безопасности.
Более того, они выступают за внедрение практики аудита безопасности для точно настроенных моделей.
Эти выводы могут существенно повлиять на растущий рынок тонкой настройки коммерческих программ LLM с открытым исходным кодом. Они также могут предоставить возможность поставщикам услуг LLM и компаниям, специализирующимся на точной настройке LLM, добавить новые меры безопасности для защиты своих корпоративных клиентов от вреда от точно настроенных моделей.
[ad_2]
Источник