[ad_1]
Ожидаете ли вы, что взаимодействуя с современными большими языковыми моделями (LLM), они будут угрюмыми, пренебрежительными, легкомысленными или даже оскорбительными?
Конечно, нет, но так и должно быть, считают исследователи из Массачусетского технологического института и Университета Монреаля. Эти ученые представили идею антагонистического ИИ: то есть систем ИИ, которые целенаправленно агрессивны, критичны, грубы и даже прерывают пользователей на полпути.
Их работа бросает вызов нынешней парадигме коммерчески популярных, но чрезмерно очищенных «ванильных» программ LLM.
«Всегда было что-то несоответствующее тону, поведению и «человеческим ценностям», заложенным в ИИ — что-то глубоко оригинальное и оторванное от нашего реального жизненного опыта», — Элис Кай, соучредитель Гарвардской лаборатории аугментации и Исследователь Центра коллективного разума Массачусетского технологического института рассказал VentureBeat.
Она добавила: «Мы пришли к этому проекту с ощущением, что антагонистическое взаимодействие с технологиями может действительно помочь людям — бросая им вызов, тренируя устойчивость, обеспечивая катарсис».
Отвращение к антагонизму
Осознаем мы это или нет, но сегодняшние выпускники магистратуры, как правило, без ума от нас. Они приятны, ободряющи, позитивны, почтительны и часто отказываются занимать твердые позиции.
Это привело к растущему разочарованию: некоторые программы LLM настолько «хороши» и «безопасны», что люди не получают от них того, чего хотят. Эти модели часто характеризуют «безобидные» запросы как опасные или неэтичные, соглашаются с неверной информацией, подвержены инъекционным атакам, которые используют их этические гарантии, и с ними трудно обсуждать такие деликатные темы, как религия, политика и психическое здоровье, говорят исследователи. указать.
Они «по большей части льстивые, раболепные, пассивные, патерналистские и пропитанные западными культурными нормами», пишут Кай и соавтор исследования Ян Аравхо, доцент Монреальского университета. Частично это связано с их процедурами обучения, данными и стимулами разработчиков.
Но это также исходит из врожденной человеческой характеристики, которая избегает дискомфорта, враждебности, разногласий и враждебности.
Однако антагонизм имеет решающее значение; это даже то, что Цай называет «силой природы». Таким образом, вопрос не в том, «почему антагонизм?», а в том, «почему мы как культура боимся антагонизма и вместо этого желаем косметической социальной гармонии?», — заявила она.
Эссеист и статистик Нассим Николас Талеб, например, представляет понятие «антихрупкости», которое утверждает, что нам нужны вызовы и контекст, чтобы выжить и процветать как люди.
«Мы не просто сопротивляемся; на самом деле мы растем благодаря невзгодам», — сказал Аравхо VentureBeat.
К этому моменту исследователи обнаружили, что антагонистический ИИ может быть полезен во многих областях. Например, он может:
- Повысить устойчивость;
- Обеспечить катарсис и развлечения;
- Способствовать личному или коллективному росту;
- Способствовать саморефлексии и просвещению;
- Укрепить и разнообразить идеи;
- Укрепляйте социальные связи.
Создание антагонистического ИИ
Исследователи начали с изучения онлайн-форумов, таких как сабреддит LocalLlama, где пользователи создают так называемые «нецензурированные» модели с открытым исходным кодом, которые не подвергаются «лоботомии». Они провели собственные эксперименты и спекулятивный семинар, на котором участники предлагали гипотетические модели, включающие антагонистический ИИ.
Их исследование выделяет три типа антагонизма:
- Состязательный, в котором ИИ ведет себя как противник против пользователя в игре с нулевой суммой;
- Аргументативный, при котором ИИ выступает против ценностей, убеждений или идей пользователя;
- Персональный, при котором система ИИ атакует поведение, внешний вид или характер пользователя.
На основе этих отклонений они предлагают несколько методов реализации антагонистических функций в ИИ, в том числе:
- Оппозиция и несогласие: обсуждение убеждений, ценностей и идей пользователей с целью стимулирования улучшения производительности или навыков;
- Личная критика: критика, оскорбления и обвинения против эго, неуверенности и самовосприятия, что может помочь в саморефлексии или обучении устойчивости;
- Нарушение ожиданий взаимодействия: прерывание пользователей или их отключение.
- Применение власти: отстранение, мониторинг или принуждение к действиям пользователя;
- Нарушение социальных норм: обсуждение табуированных тем или политически или социально некорректное поведение;
- Запугивание: угрозы, приказы или допросы с целью вызвать страх или дискомфорт;
- Манипуляция: обман, газлайтинг или чувство вины;
- Стыд и унижение. Насмешки могут иметь очищающее действие и помочь повысить устойчивость и укрепить решимость.

В ходе взаимодействия с такими моделями Аравхо размышлял: «Я удивлен тем, насколько креативными иногда бывают реакции антагонистического ИИ по сравнению с подхалимским поведением по умолчанию».
С другой стороны, при использовании «ванильного ChatGPT» ему часто приходилось задавать «тонну дополнительных вопросов», и в конечном итоге он не чувствовал себя лучше.
«Напротив, AAI может показаться освежающим», — сказал он.
Антагонистичный, но и ответственный
Но антагонизм не попирает ответственный или этичный ИИ, отмечают исследователи.
«Чтобы внести ясность, мы твердо верим в необходимость, например, уменьшить расовые или гендерные предубеждения в LLM», — подчеркнул Аравхо. «Однако призывы к справедливости и безвредности можно легко спутать с призывами к вежливости и любезности. Это не одно и то же».
Например, чат-бот без этнической предвзятости не обязательно должен быть «милым» или отвечать «наиболее безобидным способом», отметил он.
«Исследователям ИИ действительно необходимо разделить ценности и модели поведения, которые они, кажется, в данный момент смешивают», — сказал он.
На данный момент он и Цай предложили руководство по созданию ответственного антагонистического ИИ, основанного на согласии, контексте и фреймах.
Пользователи должны сначала дать свое согласие и быть тщательно проинформированы. Они также должны иметь возможность аварийной остановки. С точки зрения контекста, последствия антагонизма могут зависеть от психологического состояния пользователя в любой момент времени. Следовательно, системы должны иметь возможность учитывать контекст как внутренний (настроение, расположение и психологический профиль), так и внешний (социальный статус, то, как системы вписываются в жизнь пользователей).
Наконец, по словам Кая и Аравхо, фрейминг дает обоснование для ИИ — например, он существует, чтобы помочь пользователям повысить устойчивость — описание того, как он ведет себя и как пользователи должны с ним взаимодействовать.
Настоящий ИИ, отражающий реальный мир
Цай отметил, что, особенно для человека, выросшего в Америке азиатского происхождения, «где честность может быть валютой любви и катализатором роста», нынешний льстивый ИИ ощущается как «нежелательное патерналистское навязывание евро-американских норм в этом техно-моральном мире». «культура власти».
Аравхо согласился, указав на риторику вокруг ИИ, которая «соответствует человеческим ценностям».
«Чьи ценности? Люди отличаются культурным разнообразием и постоянно расходятся во мнениях», — сказал он, добавив, что люди не просто ценят всегда приятных «вежливых слуг».
По его словам, тех, кто создает антагонистические модели, не следует классифицировать как плохих или занимающихся табуированным поведением. Они просто ищут выгодные и полезные результаты от ИИ.
Доминирующая парадигма может выглядеть как «Белые представители среднего класса по обслуживанию клиентов», — сказал Цай. Многие черты и ценности, такие как честность, смелость, эксцентричность и юмор, были воспитаны на современных моделях. Не говоря уже о «альтернативных позициях», таких как откровенные защитники ЛГБТК+ или теоретики заговора.
«Антагонистический ИИ — это не только ИИ — это действительно культура и то, как мы можем бросить вызов самим себе в наших укоренившихся ценностях статус-кво», — сказал Цай. «Учитывая масштаб и глубину влияния, которое будет иметь ИИ, для нас становится очень важно разрабатывать системы, которые действительно отражают и продвигают весь спектр человеческих ценностей, а не сигналы минимально жизнеспособных добродетелей».
Новая область исследований
Антагонистический ИИ — провокационная идея. Так почему же в этой области не было больше работы?
Исследователи говорят, что это связано с приоритетом комфорта в технологиях и страхом со стороны ученых.
Технологии разрабатываются людьми, принадлежащими к разным культурам, и они могут невольно перенимать культурные нормы, ценности и модели поведения, которые, по мнению дизайнеров, являются общепризнанными и любимыми, отметил Аравхо.
«Однако люди в других местах мира или с другим происхождением могут не придерживаться тех же ценностей», — сказал он.
Между тем, в академическом плане стимулов просто нет. Финансирование поступает от инициатив, поддерживающих «безвредный» или «безопасный» ИИ. Кроме того, антагонистический ИИ может вызвать юридические и этические проблемы, которые могут усложнить исследовательскую работу и создать «проблему с пиаром» для отрасли.
«И это звучит спорно», — сказал Аравхо.
Однако он и Цай говорят, что их работа была встречена коллегами с воодушевлением (хотя это и смешано с нервозностью).
«Общее чувство — это подавляющее чувство облегчения — кто-то указал на то, что император без одежды», — сказал Цай.
Со своей стороны, Аравхо сказал, что он был приятно удивлен тем, как много людей, которые в остальном обеспокоены безопасностью, справедливостью и вредом ИИ, выразили признательность за антагонизм в ИИ.
«Это убедило меня, что пришло время AAI; мир готов к этим дискуссиям», — сказал он.
[ad_2]
Источник