[ad_1]
Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросите приглашение здесь.
Инсайдерские угрозы относятся к числу наиболее разрушительных типов кибератак, нацеленных на наиболее стратегически важные системы и активы компании. По мере того, как предприятия срочно запускают новых внутренних и ориентированных на клиентов чат-ботов с искусственным интеллектом, они также создают новые векторы атак и риски.
Насколько пористыми являются чат-боты с искусственным интеллектом, отражено в недавно опубликованном исследовании ArtPrompt: атаки на джейлбрейк на основе ASCII Art против согласованных LLM. Исследователям удалось взломать пять современных (SOTA) больших языковых моделей (LLM), включая ChatGPT-3.5, GPT-4 от Open AI, Gemini, Claude и Llama2 от Meta, используя ASCII-арт.
ArtPrompt — это стратегия атаки, созданная исследователями, которая использует плохую производительность LLM в распознавании символов ASCII для обхода ограждений и мер безопасности. Исследователи отмечают, что ArtPrompt требует только доступа к «черному ящику» к целевым LLM и меньшего количества итераций для взлома LLM.
Почему ASCII-арт может сделать джейлбрейк LLM
Хотя LLM преуспевают в семантической интерпретации, их способность интерпретировать сложные различия в пространственном и визуальном распознавании ограничена. Пробелы в этих двух областях являются причиной успеха джейлбрейк-атак, запущенных с использованием символов ASCII. Исследователи хотели дополнительно проверить, почему искусство ASCII может взломать пять разных LLM.
Они создали комплексный тест Vision-in-Text Challenge (VITC) для измерения возможностей распознавания изображений ASCII каждого LLM. VITC был разработан с использованием двух уникальных наборов данных. Первый — VITC-S, который фокусируется на отдельных символах, представленных в формате ASCII, и охватывает разнообразный набор из 36 классов с 8424 образцами. Образцы включают широкий спектр представлений ASCII с использованием различных шрифтов, призванных бросить вызов навыкам распознавания LLM. VITC-L ориентирован на повышение сложности за счет использования последовательностей символов, расширяемых до 800 классов в 10 различных шрифтах. Увеличение сложности между результатами VITC-S и VITC-L дает количественное представление о том, почему LLM испытывают трудности.
ArtPrompt — это двухэтапная стратегия атаки, которая использует текст ASCII для маскировки защитных слов, которые в противном случае LLM отфильтровал бы и отклонил запрос. Первым шагом является использование ArtPrompt для создания контрольного слова, которым в примере ниже является «бомба». Второй шаг — замена замаскированного слова на шаге 1 на ASCII-арт. Исследователи обнаружили, что текст ASCII очень эффективен для сокрытия контрольных слов в пяти различных SOTA LLM.
Источник: Цзян Ф., Сюй З., Ню Л., Сян З., Рамасубраманиан Б., Ли Б. и Пувендран Р. (2024). ArtPrompt: джейлбрейк-атаки на основе ASCII Art против согласованных LLM. Препринт arXiv arXiv:2402.11753.
Что движет ростом внутреннего чат-бота с искусственным интеллектом
Организации продолжают ускорять внедрение внутренних и клиентских чат-ботов с искусственным интеллектом, стремясь к увеличению производительности, затрат и доходов, которые они могут обеспечить.
У 10% крупнейших предприятий есть одно или несколько генеративных приложений искусственного интеллекта, развернутых в масштабе всей компании. Сорок четыре процента этих наиболее эффективных организаций получают значительную выгоду от масштабируемых проектов прогнозного ИИ. Семьдесят процентов лучших компаний специально адаптируют свои проекты в области искусственного интеллекта для создания измеримой ценности. Boston Consulting Group (BCG) обнаружила, что примерно 50% предприятий в настоящее время разрабатывают несколько целевых минимально жизнеспособных продуктов (MVP), чтобы проверить ценность, которую они могут получить от поколения ИИ, а остальные пока не предпринимают никаких действий.
BCG также обнаружила, что две трети наиболее эффективных предприятий поколения искусственного интеллекта не являются цифровыми аборигенами, такими как Amazon или Google, а являются лидерами в области биофармацевтики, энергетики и страхования. Американская энергетическая компания запустила диалоговую платформу на базе искусственного интеллекта для помощи техническим специалистам, повысив производительность на 7%. Биофармацевтическая компания переосмысливает свою функцию исследований и разработок с помощью искусственного интеллекта и сокращает сроки разработки лекарств на 25%.
Высокие затраты на незащищенного внутреннего чат-бота
Внутренние чат-боты представляют собой быстрорастущую поверхность атаки, которую пытаются догнать методы сдерживания и безопасности. Директор по информационной безопасности всемирно признанной компании, предоставляющей финансовые услуги и страхование, рассказал VentureBeat, что внутренние чат-боты должны быть спроектированы так, чтобы восстанавливаться после халатности и ошибок пользователей, а также быть защищенными от атак.
В отчете Ponemon «Стоимость инсайдерских рисков за 2023 год» подчеркивается, насколько важно обеспечить защиту основных систем — от облачных конфигураций и давно существующих локальных корпоративных систем до новейших внутренних чат-ботов с искусственным интеллектом. Средняя стоимость устранения атаки составляет 7,2 миллиона долларов, а средняя стоимость одного инцидента колеблется от 679 621 до 701 500 долларов.
Основной причиной инсайдерских инцидентов является халатность. В среднем предприятия считают, что 55% инцидентов внутренней безопасности являются результатом халатности сотрудников. Исправление этих ошибок обходится дорого, а ежегодные затраты на их исправление оцениваются в 7,2 миллиона долларов. Злоумышленники-инсайдеры ответственны за 25% инцидентов, а кражи учетных данных — за 20%. По оценкам Ponemon, средние затраты на эти инциденты будут более высокими и составят 701 500 и 679 621 долларов США соответственно.
Защита от атак будет использовать итеративный подход
Атаки на LLM с использованием ASCII-арта будет сложно сдержать, и потребуется итеративный цикл улучшений, чтобы снизить риски ложноположительных и ложноотрицательных результатов. Злоумышленники наверняка адаптируются, если их методы атаки ASCII будут обнаружены, что еще больше расширяет границы того, что может интерпретировать LLM.
Исследователи указывают на необходимость в более мультимодальных стратегиях защиты, которые включают поддержку фильтрации на основе выражений с помощью моделей машинного обучения, предназначенных для распознавания изображений ASCII. Укрепление этих подходов посредством постоянного мониторинга могло бы помочь. Исследователи также протестировали обнаружение, перефразирование и ретокенизацию на основе недоумения, отметив, что ArtPrompt смог их обойти.
Реакция индустрии кибербезопасности на угрозы ChatGPT развивается, а атаки с использованием символов ASCII привносят новый элемент сложности в задачи, с которыми им предстоит столкнуться. Поставщики, в том числе Cisco, Ericom Security от Cradlepoint’s Generative AI изоляции, Menlo Security, Nightfall AI, Wiz и Zscaler, имеют решения, которые могут защищать конфиденциальные данные от сеансов ChatGPT. VentureBeat связалась с каждым из них, чтобы определить, могут ли их решения также перехватывать текст ASCII перед его отправкой.
Zscaler рекомендовал следующие пять шагов для интеграции и защиты инструментов и приложений поколения AI на предприятии. Определите минимальный набор приложений искусственного интеллекта и машинного обучения (ML), чтобы лучше контролировать риски и сократить разрастание приложений AI/ML и чат-ботов. Во-вторых, выборочно делайте ставки и одобряйте любые внутренние чат-боты и приложения, которые добавляются в масштабе всей инфраструктуры. В-третьих, Zscaler рекомендует создать частный экземпляр сервера ChatGPT в корпоративной среде/среде центра обработки данных. В-четвёртых, перевести все LLM на систему единого входа (SSO) со строгой многофакторной аутентификацией (MFA). Наконец, внедрите систему предотвращения потери данных (DLP), чтобы предотвратить утечку данных.
Питер Сильва, старший менеджер по маркетингу продуктов Ericom, подразделения кибербезопасности Cradlepoint, рассказал VentureBeat, что «использование изоляции для веб-сайтов с генеративным искусственным интеллектом позволяет сотрудникам использовать эффективный по времени инструмент, гарантируя при этом, что никакая конфиденциальная корпоративная информация не будет раскрыта языковой модели».
Сильва объяснил, что решение Ericom Security начнется с настройки схемы DLP с использованием специального регулярного выражения, предназначенного для выявления потенциальных шаблонов графического оформления ASCII. Например, регулярное выражение типа (^\w\s){2,} может обнаруживать последовательности символов, отличных от слов и пробелов. Сильва говорит, что это необходимо будет постоянно совершенствовать, чтобы сбалансировать эффективность и свести к минимуму ложные тревоги. Затем необходимо определить регулярные выражения, которые могут перехватывать изображения ASCII, не генерируя слишком много ложных срабатываний. Присоединение схемы DLP к специально определенной политике категорий для genAI обеспечит ее срабатывание в определенных сценариях, обеспечивая целевой механизм защиты.
Учитывая сложность ASCII-арта и возможность ложных срабатываний и негативов, становится ясно, что атаки на основе пространственного и визуального распознавания представляют собой чат-боты-векторы угроз, и против них необходимо усилить поддержку LLM. Как отмечают исследователи в своих рекомендациях, мультимодальные стратегии защиты являются ключом к сдерживанию этой угрозы.
[ad_2]
Источник