[ad_1]
Практически каждый может отравить набор данных машинного обучения (ML), чтобы существенно и навсегда изменить его поведение и выходные данные. Благодаря тщательным и упреждающим усилиям по обнаружению организации могут сохранить недели, месяцы или даже годы работы, которую они в противном случае потратили бы на устранение ущерба, причиненного отравленными источниками данных.
Что такое отравление данных и почему это имеет значение?
Отравление данных — это тип состязательной атаки машинного обучения, которая злонамеренно подделывает наборы данных, чтобы ввести в заблуждение или запутать модель. Цель состоит в том, чтобы заставить его реагировать неточно или вести себя непреднамеренно. На самом деле эта угроза может нанести вред будущему искусственного интеллекта.
По мере расширения внедрения ИИ отравление данных становится все более распространенным явлением. Участились модельные галлюцинации, неадекватные реакции и неверные классификации, вызванные преднамеренными манипуляциями. Общественное доверие уже падает — только 34% людей твердо верят, что могут доверять технологическим компаниям управление ИИ.
Примеры отравления наборов данных машинного обучения
Несмотря на то, что существует несколько типов отравлений, их общая цель — повлиять на результаты модели ML. Как правило, каждый из них предполагает предоставление неточной или вводящей в заблуждение информации с целью изменить поведение. Например, кто-то может вставить изображение знака ограничения скорости в набор данных знаков остановки, чтобы заставить беспилотный автомобиль неправильно классифицировать дорожные знаки.
Даже если злоумышленник не может получить доступ к обучающим данным, он все равно может вмешаться в модель, воспользовавшись ее способностью адаптировать свое поведение. Они могли ввести тысячи целевых сообщений одновременно, чтобы исказить процесс классификации. Google испытал это несколько лет назад, когда злоумышленники одновременно запустили миллионы электронных писем, чтобы сбить с толку его почтовый фильтр и ошибочно отнести спам к законной корреспонденции.
В другом реальном случае пользовательский ввод навсегда изменил алгоритм ML. Microsoft запустила своего нового чат-бота «Tay» в Твиттере в 2016 году, пытаясь имитировать стиль разговора девочки-подростка. Всего за 16 часов было опубликовано более 95 000 твитов, большинство из которых носили ненавистнический, дискриминационный или оскорбительный характер. Предприятие быстро обнаружило, что люди массово отправляли неподходящие данные, чтобы изменить выходные данные модели.
Распространенные методы отравления наборов данных
Методы отравления можно разделить на три основные категории. Первый — это подделка набора данных, когда кто-то злонамеренно изменяет учебный материал, чтобы повлиять на производительность модели. Типичным примером является инъекционная атака, когда злоумышленник вводит неточные, оскорбительные или вводящие в заблуждение данные.
Подмена этикетки — еще один пример фальсификации. При этой атаке злоумышленник просто переключает обучающий материал, чтобы запутать модель. Цель состоит в том, чтобы заставить его неправильно классифицировать или грубо просчитать, что в конечном итоге существенно изменит его производительность.
Вторая категория включает манипулирование моделью во время и после обучения, когда злоумышленники вносят дополнительные изменения, чтобы повлиять на алгоритм. Примером может служить бэкдор-атака. В этом случае кто-то отравляет небольшое подмножество набора данных — после выпуска он запускает определенный триггер, вызывающий непреднамеренное поведение.
Третья категория включает в себя манипулирование моделью после развертывания. Одним из примеров является отравление разделенным представлением, когда кто-то берет под свой контроль источник, индексируемый алгоритмом, и наполняет его неточной информацией. Как только модель ML использует недавно измененный ресурс, она примет отравленные данные.
Важность превентивных усилий по обнаружению
Что касается отравления данных, проактивность имеет жизненно важное значение для обеспечения целостности модели ML. Непреднамеренное поведение чат-бота может быть оскорбительным или уничижительным, но отравленные приложения машинного обучения, связанные с кибербезопасностью, имеют гораздо более серьезные последствия.
Если кто-то получит доступ к набору данных ОД с целью его отравления, он может серьезно ослабить безопасность — например, вызвать неверную классификацию при обнаружении угроз или фильтрации спама. Поскольку взлом обычно происходит постепенно, никто, скорее всего, не обнаружит присутствия злоумышленника в среднем в течение 280 дней. Чтобы они не остались незамеченными, компании должны проявлять инициативу.
К сожалению, злонамеренное вмешательство невероятно просто. В 2022 году исследовательская группа обнаружила, что они могут отравить 0,01% крупнейших наборов данных — COYO-700M или LAION-400M — всего за 60 долларов.
Хотя такой небольшой процент может показаться незначительным, небольшое количество может иметь серьезные последствия. Всего лишь 3% отравления набора данных может увеличить уровень ошибок обнаружения спама в модели ML с 3% до 24%. Учитывая, что, казалось бы, незначительное вмешательство может иметь катастрофические последствия, необходимы превентивные усилия по обнаружению.
Способы обнаружения отравленного набора данных машинного обучения
Хорошей новостью является то, что организации могут принять ряд мер для защиты обучающих данных, проверки целостности набора данных и отслеживания аномалий, чтобы минимизировать вероятность отравления.
1: Обеззараживание данных
Санитизация – это «очистка» учебного материала до того, как он попадет в алгоритм. Он включает в себя фильтрацию и проверку набора данных, при которой кто-то отфильтровывает аномалии и выбросы. Если они обнаруживают подозрительные, неточные или недостоверные данные, они удаляют их.
2: Мониторинг модели
После развертывания компания может отслеживать свою модель машинного обучения в режиме реального времени, чтобы гарантировать, что она внезапно не проявит непреднамеренное поведение. Если они заметят подозрительные реакции или резкое увеличение неточностей, они могут искать источник отравления.
Обнаружение аномалий здесь играет существенную роль, поскольку помогает выявить случаи отравления. Одним из способов, с помощью которого фирма может реализовать этот метод, является создание эталонного алгоритма и алгоритма аудита вместе со своей общедоступной моделью для сравнения.
3: Безопасность источника
Защита наборов данных ML важна как никогда, поэтому предприятиям следует получать данные только из надежных источников. Кроме того, им следует проверить подлинность и целостность перед обучением своей модели. Этот метод обнаружения применим и к обновлениям, поскольку злоумышленники могут легко отравить ранее проиндексированные сайты.
4: Обновления
Регулярная очистка и обновление набора данных ML снижает вероятность отравления разделенным представлением и бэкдор-атак. Обеспечение точности, адекватности и целостности информации, на которой обучается модель, — это непрерывный процесс.
5: Проверка ввода пользователя
Организациям следует фильтровать и проверять все входные данные, чтобы пользователи не могли изменить поведение модели целенаправленными, широко распространенными и вредоносными действиями. Этот метод обнаружения снижает ущерб от внедрения, отравления с разделенным представлением и бэкдор-атак.
Организации могут предотвратить отравление наборов данных
Хотя отравление наборов данных ML может быть трудно обнаружить, превентивные и скоординированные усилия могут значительно снизить вероятность того, что манипуляции повлияют на производительность модели. Таким образом, предприятия могут повысить свою безопасность и защитить целостность своих алгоритмов.
Зак Амос — редактор функций в ReHack, где он освещает вопросы кибербезопасности, искусственного интеллекта и автоматизации.
[ad_2]
Источник