Встречайте SeamlessM4T, модель Meta AI, которая может переводить речь или текст со 100 языков.

[ad_1]

В рамках более широких усилий по устранению языковых барьеров и поддержанию связей между людьми Meta разработала многоязычную базовую модель, которая может понимать почти 100 языков по речи или тексту и генерировать переводы на любой из них или на оба в режиме реального времени.

Мультимодальная технология, получившая официальное название SeamlessM4T, была публично представлена, чтобы помочь исследователям развивать разработку и внедрять универсальные приложения, способные осуществлять переводы «речь в речь», «речь в текст», «текст в речь» и «текст в текст». Он был доступен вместе с SeamlessAlign, мультимодальным набором данных перевода, включающим в себя 265 000 часов добытой речи и выравниваний текста.

Это предложение знаменует собой значительное развитие применения ИИ в лингвистике, учитывая, что это единая система, выполняющая множество задач в области речи и текста. До этого этот подход в основном включал разные системы для разных задач, например специальную систему для перевода речи в речь.

Что может SeamlessM4T?

Как объясняет Мета, SeamlessM4T неявно распознает исходный язык без необходимости использования отдельной модели идентификации языка. Он может распознавать речь и текст почти на 100 языках и воспроизводить текст почти на таком же количестве, а также речь на 36 языках. Что еще более интересно, он также может выяснить, когда в одном предложении смешано более одного языка, и обеспечить переводы на один целевой язык (например, предложение, произнесенное на телугу и хинди и переведенное на английский язык).

При тестировании с помощью BLASER 2.0, который позволяет оценивать речевые и текстовые единицы, модель работала лучше с фоновыми шумами и изменениями говорящего в задачах преобразования речи в текст (со средним улучшением 37% и 48% соответственно) по сравнению с текущей версией. современные модели для задач преобразования речи в текст.

«SeamlessM4T превосходит предыдущих современных конкурентов», — заявила Мета в своем блоге. «Мы также значительно улучшаем производительность поддерживаемых языков с низким и средним уровнем ресурсов (с меньшим цифровым следом) и поддерживаем высокую производительность на языках с высокими ресурсами (например, английском)».

Когда это будет разработано, это может привести к созданию крупномасштабных универсальных систем перевода, позволяющих людям, говорящим на разных языках, общаться более эффективно.

Примечательно, что Google также работает в этом направлении и анонсировала универсальную модель речи (USM), которая может выполнять автоматическое распознавание речи (ASR) как для широко распространенных, так и для языков с ограниченными ресурсами.

Как все это работает?

Чтобы воплотить модель в жизнь, Meta извлекла веб-данные (десятки миллиардов предложений) и речь (4 миллиона часов) из общедоступных источников и выровняла их для создания набора данных SeamlessAlign. В общей сложности компания заявила, что ей удалось согласовать более 443 000 часов речи с текстами и создать около 29 000 часов согласования речи с речью. Используя эти данные, компания обучила многозадачную модель UnitY для получения желаемых мультимодальных результатов.

«Многозадачная модель UnitY состоит из трех основных последовательных компонентов», — объясняет Мета. «Задачей кодировщиков текста и речи является распознавание ввода почти на 100 языках. Затем текстовый декодер передает это значение текста почти на 100 языков, после чего следует модель преобразования текста в единицы для декодирования в дискретные акустические единицы для 36 языков речи… Декодированные дискретные единицы затем преобразуются в речь с помощью многоязычного устройства HiFi-GAN. вокодер».

Еще не идеально

Тем не менее, важно отметить, что SeamlessM4T на данный момент далек от совершенства. Оценки показали, что эта модель имеет как дополнительную токсичность (хотя на 63% меньше, чем у современных моделей), так и проблемы гендерной предвзятости.

Согласно официальному документу, подробно описывающему технологию, SeamlessM4T обобщает формы мужского рода при переводе с нейтральных терминов (со средним предпочтением примерно 10%), но демонстрирует недостаточную надежность при изменении пола примерно на 3%.

«Мы обнаруживаем токсичность как на входе, так и на выходе демо-версии», — сказал Мета. «Если токсичность обнаруживается только на выходе, это означает, что токсичность добавляется. В этом случае мы включаем предупреждение и не показываем выходные данные… Что касается предвзятости, мы начали наши усилия по оценке гендерной предвзятости в языках в масштабе. Теперь мы можем количественно оценить гендерную предвзятость в десятках направлений перевода речи, распространив на речь наш ранее разработанный набор данных Multilingual HolisticBias».

Компания подчеркнула, что это постоянная работа, и что она продолжит исследования и принимать меры в этих областях для дальнейшего повышения надежности и безопасности модели SeamlessM4T.

[ad_2]

Источник

Встречайте SeamlessM4T, модель Meta AI, которая может переводить речь или текст со 100 языков.

Что может SeamlessM4T?

Как все это работает?

Еще не идеально

Тут интересно

Вам может понравиться

Ozon тестирует ИИ-генератор фотографий для карточек товаров

8 удивительных инструментов искусственного интеллекта, которые произведут революцию в вашем рабочем процессе

Открытый vs. закрытый код: кто побеждает в битве AI?

Какие профессии искусственный интеллект отберет и подарит

Функция Memory теперь доступна для всех пользователей ChatGPT Plus

Искусственный интеллект может сделать страхование более доступным

Будущее розничной торговли: тренды, управляемые искусственным интеллектом

Революционное решение для медицины в условиях ограниченных ресурсов с использованием Meta Llama

Лучшие типы контента, генерируемого искусственным интеллектом в маркетинге

Искусственный интеллект на службе у хип-хопа: новый трек Дрейка с голосами Тупака и Снуп Догга

Эволюция и стоимость обучения искусственного интеллекта: от Transformers до Gemini Ultra

Stable Diffusion 3 API теперь доступен разработчика

Обзор сервисов ИИ

Daily AI

Популярное

Встречайте SeamlessM4T, модель Meta AI, которая может переводить речь или текст со 100 языков.

Что может SeamlessM4T?

Как все это работает?

Еще не идеально

Эксклюзив: Hummingbird запускает продукт автоматизации на базе искусственного интеллекта для расследования финансовых преступлений

Pecan AI представляет прогнозирующий генеративный ИИ, чтобы демократизировать прогнозы ИИ для бизнеса

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное