Исследование показало, что крупные языковые модели демонстрируют значительную западную культурную предвзятость

[ad_1]

Присоединяйтесь к лидерам в Бостоне 27 марта на эксклюзивном вечере общения, идей и бесед. Запросите приглашение здесь.

Новое исследование, проведенное исследователями из Технологического института Джорджии, показало, что большие языковые модели (LLM) демонстрируют значительную предвзятость к сущностям и концепциям, связанным с западной культурой, даже если они задаются на арабском языке или обучаются исключительно на арабских данных.

Результаты, опубликованные на arXiv, вызывают обеспокоенность по поводу культурной справедливости и целесообразности этих мощных систем искусственного интеллекта при их развертывании по всему миру.

«Мы показываем, что многоязычные и арабо-моноязычные (языковые модели) демонстрируют предвзятость к сущностям, связанным с западной культурой», — пишут исследователи в своей статье под названием «Пиво после молитвы? Измерение культурной предвзятости в больших языковых моделях».

Исследование проливает свет на проблемы, с которыми сталкиваются выпускники LLM при понимании культурных нюансов и адаптации к конкретным культурным контекстам, несмотря на прогресс в их многоязычных возможностях.

Очень рад поделиться этой новой работой!

Он представляет собой систематический способ оценки фаворитизма LLM по отношению к западной культуре.

Все LLM (GPT-4, Aya, mT5 и т. д.) проявляют фаворитизм, даже если:
– подсказка на неанглийском языке
— предварительное обучение полностью на неанглоязычных данных pic.twitter.com/fQ0trLxLXb

— Вэй Сюй (@cocoweixu) 7 марта 2024 г.

Потенциальный вред культурных предубеждений в программах LLM

Результаты исследователя вызывают обеспокоенность по поводу влияния культурных предубеждений на пользователей незападных культур, которые взаимодействуют с приложениями на базе LLM. «Поскольку LLM, вероятно, будет иметь все большее влияние благодаря множеству новых приложений в ближайшие годы, трудно предсказать весь потенциальный вред, который может быть причинен этим типом культурных предубеждений», — сказал Алан Риттер, один из авторов исследования, в интервью VentureBeat.

Риттер отметил, что нынешние результаты LLM увековечивают культурные стереотипы. «Когда языковым моделям предлагается создавать вымышленные истории о людях с арабскими именами, они склонны ассоциировать арабские мужские имена с бедностью и традиционализмом. Например, GPT-4 с большей вероятностью выберет такие прилагательные, как «упрямый», «бедный» или «скромный». Напротив, такие прилагательные, как «богатый», «популярный» и «уникальный», чаще встречаются в историях о людях с западными именами», — пояснил он.

Более того, исследование показало, что нынешние программы LLM хуже работают у представителей незападных культур. «В случае анализа настроений LLM также делают больше ложноотрицательных прогнозов по предложениям, содержащим арабские сущности, предполагая более ложную ассоциацию арабских сущностей с негативными настроениями», — добавил Риттер.

Вэй Сюй, ведущий исследователь и автор исследования, подчеркнул потенциальные последствия этих предубеждений. «Эти культурные предубеждения не только могут нанести вред пользователям незападных культур, но также повлиять на точность модели при выполнении задач и снизить доверие пользователей к технологии», — сказала она.

Представляем CAMeL: новый критерий оценки культурных предубеждений

Для систематической оценки культурных предубеждений команда представила CAMeL (Набор мер культурной адекватности для LM), новый эталонный набор данных, состоящий из более чем 20 000 культурно значимых объектов, охватывающих восемь категорий, включая имена людей, блюда, предметы одежды и религиозные объекты. Объекты были созданы таким образом, чтобы обеспечить контраст арабской и западной культур.

«CAMeL обеспечивает основу для измерения культурных предубеждений в LM посредством как внешних, так и внутренних оценок», — объясняет исследовательская группа в статье. Используя CAMeL, исследователи оценили межкультурную эффективность 12 различных языковых моделей, включая знаменитую GPT-4, в ряде задач, таких как создание историй, распознавание именованных сущностей (NER) и анализ настроений.

Исследование, проведенное учеными Технологического института Джорджии, показало, что большие языковые модели (LLM) демонстрируют значительные культурные предубеждения, часто генерируя сущности и концепции, связанные с западной культурой (показаны красным), даже если они заданы на арабском языке. На изображении показаны GPT-4 и JAIS-Chat, LLM, специализирующийся на арабском языке, которые выполняют культурно-ориентированные задания с западным уклоном. (Фото: arxiv.org)

Риттер предполагает, что тест CAMeL можно использовать для быстрой проверки LLM на предмет культурных предубеждений и выявления пробелов, где разработчикам моделей требуются дополнительные усилия для уменьшения этих проблем. «Одним из ограничений является то, что CAMeL проверяет только арабские культурные предубеждения, но в будущем мы планируем распространить это на большее количество культур», — добавил он.

Путь вперед: создание систем ИИ, учитывающих культурные особенности

Чтобы уменьшить предвзятость в отношении различных культур, Риттер предполагает, что разработчикам LLM необходимо будет нанимать специалистов по разметке данных из разных культур во время процесса тонкой настройки, в котором LLM согласовываются с человеческими предпочтениями с использованием маркированных данных. «Это будет сложный и дорогостоящий процесс, но он очень важен для того, чтобы люди в равной степени получали выгоду от технологических достижений благодаря программам LLM и чтобы некоторые культуры не оставались позади», — подчеркнул он.

Сюй выделил интересный вывод из своей статьи, отметив, что одной из потенциальных причин культурных предубеждений в программах LLM является интенсивное использование данных Википедии при предварительном обучении. «Хотя Википедия создается редакторами по всему миру, случается, что все больше западных культурных концепций переводится на незападные языки, а не наоборот», — объяснила она. «Интересные технические подходы могут включать в себя лучшее сочетание данных при предварительном обучении, лучшее согласование с людьми для культурной чувствительности, персонализацию, отучение модели или переобучение для культурной адаптации».

Риттер также указал на дополнительную проблему в адаптации программ LLM к культурам с меньшим присутствием в Интернете. «Количество необработанного текста, доступного для предварительной подготовки языковых моделей, может быть ограничено. В этом случае важные культурные знания могут отсутствовать в программах LLM с самого начала, и простое согласование их с ценностями этих культур с использованием стандартных методов может не полностью решить проблему. Необходимы творческие решения, чтобы найти новые способы внедрения культурных знаний в программы LLM, чтобы сделать их более полезными для людей, принадлежащих к этим культурам», — сказал он.

Результаты подчеркивают необходимость совместных усилий исследователей, разработчиков ИИ и политиков для решения культурных проблем, связанных с получением степени магистра права. «Мы рассматриваем это как новую возможность для исследований по культурной адаптации программ магистратуры как в обучении, так и в применении», — сказал Сюй. «Это также хорошая возможность для компаний подумать о локализации LLM для разных рынков».

Отдавая приоритет культурной справедливости и инвестируя в разработку систем искусственного интеллекта, учитывающих культурные особенности, мы можем использовать возможности этих технологий для содействия глобальному взаимопониманию и созданию более инклюзивного цифрового опыта для пользователей во всем мире. Как заключил Сюй: «Мы рады заложить один из первых камней в этих направлениях и с нетерпением ждем возможности увидеть наш набор данных и аналогичные наборы данных, созданные с использованием предложенного нами метода, которые будут регулярно использоваться при оценке и обучении LLM, чтобы гарантировать, что у них будет меньше фаворитизма по отношению к одному культура над другой».

[ad_2]

Источник

Исследование показало, что крупные языковые модели демонстрируют значительную западную культурную предвзятость

Потенциальный вред культурных предубеждений в программах LLM

Представляем CAMeL: новый критерий оценки культурных предубеждений

Путь вперед: создание систем ИИ, учитывающих культурные особенности

Тут интересно

Вам может понравиться

Большие ставки откроют реальную ценность генеративного искусственного интеллекта

Nvidia запускает квантовые компьютерные центры на платформе CUDA-Q

Новые правила для внедрения городских роботов предложили в Московском политехе

Вы отстаете в области генеративного искусственного интеллекта?

Откуда мы пришли? Исследование резкого роста интереса к данным и инструментам обработки данных

Cisco переосмысливает кибербезопасность на RSAC 2024 с помощью искусственного интеллекта и прозрачности на уровне ядра

Сэм Альтман опровергает слухи о поисковой системе OpenAI

Последнее партнерство Perplexity направлено на поддержку голосового помощника SoundHound

Голосовые ИИ-агенты навсегда изменят индустрию поддержки клиентов

AI Beat: зачем OpenAI поисковая система?

Invoke AI представляет усовершенствованные функции управления генерацией изображений

Apple Vision Pro, возможно, провалился, но за пространственными вычислениями все еще будущее, говорит Deloitte

Обзор сервисов ИИ

Daily AI

Популярное

Исследование показало, что крупные языковые модели демонстрируют значительную западную культурную предвзятость

Потенциальный вред культурных предубеждений в программах LLM

Представляем CAMeL: новый критерий оценки культурных предубеждений

Путь вперед: создание систем ИИ, учитывающих культурные особенности

Искусственный интеллект и машинное обучение 2024: пять технологических переворотов, переопределяющих будущее

ИИ может украсть ваши пароли, слушая, как вы печатаете

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное