[ad_1]
В последние годы большие диффузионные модели, такие как DALL-E 2 и Stable Diffusion, получили признание благодаря своей способности генерировать высококачественные фотореалистичные изображения и способности выполнять различные задачи синтеза и редактирования изображений.
Но возникают опасения по поводу потенциального неправильного использования удобных для пользователя генеративных моделей искусственного интеллекта, которые могут привести к созданию неподходящего или вредного цифрового контента. Например, злоумышленники могут использовать общедоступные фотографии людей, используя стандартную модель распространения для их редактирования с вредоносными намерениями.
Чтобы решить растущие проблемы, связанные с несанкционированным манипулированием изображениями, исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) представили «PhotoGuard», инструмент искусственного интеллекта, предназначенный для борьбы с моделями искусственного интеллекта продвинутого поколения, такими как DALL-E и Midjourney.
Укрепление изображений перед загрузкой
В научной статье «Повышение стоимости вредоносного редактирования изображений с помощью искусственного интеллектаИсследователи утверждают, что PhotoGuard может обнаруживать незаметные «возмущения» (нарушения или неравномерности) в значениях пикселей, которые невидимы для человеческого глаза, но обнаруживаются компьютерными моделями.
«Наш инструмент направлен на «укрепление» изображений перед загрузкой в Интернет, обеспечивая устойчивость к попыткам манипулирования с помощью искусственного интеллекта», — рассказал VentureBeat Хади Салман, аспирант MIT CSAIL и ведущий автор статьи. «В нашем документе, подтверждающем концепцию, мы фокусируемся на манипуляциях с использованием самого популярного класса моделей искусственного интеллекта, которые в настоящее время используются для изменения изображений. Эта устойчивость достигается за счет тонко продуманных, незаметных изменений пикселей защищаемого изображения. Эти возмущения созданы для того, чтобы нарушить функционирование модели ИИ, управляющей попыткой манипуляции».
По мнению исследователей MIT CSAIL, ИИ использует два различных метода «атаки» для создания возмущений: кодирование и диффузию.
Атака «кодировщик» фокусируется на скрытом представлении изображения в модели искусственного интеллекта, в результате чего модель воспринимает изображение как случайное и делает манипулирование изображением практически невозможным. Аналогичным образом, «диффузионная» атака представляет собой более сложный подход и включает в себя определение целевого изображения и оптимизацию возмущений, чтобы сгенерированное изображение было максимально похоже на цель.
Враждебные возмущения
Салман объяснил, что ключевым механизмом, используемым в его искусственном интеллекте, являются «состязательные возмущения».
«Такие возмущения представляют собой незаметные модификации пикселей изображения, которые оказались исключительно эффективными при манипулировании поведением моделей машинного обучения», — сказал он. «PhotoGuard использует эти возмущения, чтобы манипулировать моделью искусственного интеллекта, обрабатывающей защищенное изображение, для создания нереалистичных или бессмысленных изменений».
Команда аспирантов и ведущих авторов MIT CSAIL, в том числе Алаа Хададж, Гийома Леклера и Эндрю Ильяса, вместе с Салманом внесла свой вклад в исследовательскую работу.
Работа также была представлена на Международной конференции по машинному обучению в июле и частично поддержана грантами Национального научного фонда Агентства перспективных исследовательских проектов Открытой филантропии и обороны.
Использование ИИ в качестве защиты от манипуляций с изображениями с помощью ИИ
Салман сказал, что, хотя генеративные модели на базе искусственного интеллекта, такие как DALL-E и Midjourney, получили известность благодаря своей способности создавать гиперреалистичные изображения из простых текстовых описаний, также стали очевидными растущие риски неправильного использования.
Эти модели позволяют пользователям создавать очень подробные и реалистичные изображения, открывая возможности для невинных и вредоносных приложений.
Салман предупредил, что мошеннические манипуляции с изображениями могут повлиять на рыночные тенденции и общественные настроения, а также подвергнуть риску личные изображения. Ненадлежащим образом измененные изображения могут быть использованы для шантажа, что приведет к значительным финансовым последствиям в более широком масштабе.
Хотя использование водяных знаков показало себя многообещающим решением, Салман подчеркнул, что необходимость превентивных мер по предотвращению злоупотреблений остается критически важной.
«На высоком уровне можно рассматривать этот подход как «иммунизацию», которая снижает риск злонамеренного манипулирования этими изображениями с помощью ИИ — подход, который можно рассматривать как дополнительную стратегию к методам обнаружения или нанесения водяных знаков», — объяснил Салман. «Важно, что последние методы предназначены для выявления фальсифицированных изображений после того, как они уже созданы. Однако PhotoGuard изначально стремится предотвратить такие изменения».
Изменения, незаметные для человека
PhotoGuard изменяет выбранные пиксели изображения, чтобы ИИ мог понять изображение, объяснил он.
Модели искусственного интеллекта воспринимают изображения как сложные математические точки данных, представляющие цвет и положение каждого пикселя. Внося незаметные изменения в это математическое представление, PhotoGuard гарантирует, что изображение останется визуально неизменным для людей-наблюдателей, одновременно защищая его от несанкционированных манипуляций со стороны моделей искусственного интеллекта.
Метод атаки «кодировщик» вводит эти артефакты, нацеливаясь на скрытое представление алгоритмической модели целевого изображения — сложное математическое описание положения и цвета каждого пикселя в изображении. В результате ИИ по сути не может понять контент.
С другой стороны, более продвинутый и требующий больших вычислительных ресурсов метод «диффузионной» атаки маскирует изображение в глазах ИИ как другое. Он идентифицирует целевое изображение и оптимизирует его возмущения, чтобы оно напоминало цель. Следовательно, любые изменения, которые ИИ попытается применить к этим «иммунизированным» изображениям, будут ошибочно применены к поддельным «целевым» изображениям, создавая нереалистичные изображения.
«Она направлена на то, чтобы обмануть весь процесс редактирования, гарантируя, что окончательный вариант значительно отклонится от запланированного результата», — сказал Салман. «Используя поведение модели распространения, эта атака приводит к изменениям, которые могут заметно отличаться и потенциально бессмысленны по сравнению с предполагаемыми изменениями пользователя».
Упрощение диффузной атаки за меньшее количество шагов
Исследовательская группа MIT CSAIL обнаружила, что упрощение диффузионной атаки с меньшим количеством шагов повышает ее практичность, даже несмотря на то, что она остается трудоемкой. Кроме того, команда заявила, что интегрирует дополнительные надежные возмущения, чтобы усилить защиту модели ИИ от распространенных манипуляций с изображениями.
Хотя исследователи признают обещание PhotoGuard, они также предупреждают, что это не надежное решение. Злоумышленники могут попытаться перепроектировать защитные меры, применив шум, обрезав или повернув изображение.
В качестве исследовательской демонстрации модель ИИ в настоящее время не готова к развертыванию, и исследовательская группа не рекомендует использовать ее для иммунизации фотографий на данном этапе.
«Для того, чтобы PhotoGuard стал полностью эффективным и надежным инструментом, потребуется разработать версии нашей модели ИИ, адаптированные к моделям ИИ конкретного поколения, которые присутствуют сейчас и появятся в будущем», — сказал Салман. «Это, конечно, потребует сотрудничества разработчиков этих моделей, и обеспечение такого широкого сотрудничества может потребовать некоторых политических действий».
[ad_2]
Источник