[ad_1]
В рамках более широких усилий по устранению языковых барьеров и поддержанию связей между людьми Meta разработала многоязычную базовую модель, которая может понимать почти 100 языков по речи или тексту и генерировать переводы на любой из них или на оба в режиме реального времени.
Мультимодальная технология, получившая официальное название SeamlessM4T, была публично представлена, чтобы помочь исследователям развивать разработку и внедрять универсальные приложения, способные осуществлять переводы «речь в речь», «речь в текст», «текст в речь» и «текст в текст». Он был доступен вместе с SeamlessAlign, мультимодальным набором данных перевода, включающим в себя 265 000 часов добытой речи и выравниваний текста.
Это предложение знаменует собой значительное развитие применения ИИ в лингвистике, учитывая, что это единая система, выполняющая множество задач в области речи и текста. До этого этот подход в основном включал разные системы для разных задач, например специальную систему для перевода речи в речь.
Что может SeamlessM4T?
Как объясняет Мета, SeamlessM4T неявно распознает исходный язык без необходимости использования отдельной модели идентификации языка. Он может распознавать речь и текст почти на 100 языках и воспроизводить текст почти на таком же количестве, а также речь на 36 языках. Что еще более интересно, он также может выяснить, когда в одном предложении смешано более одного языка, и обеспечить переводы на один целевой язык (например, предложение, произнесенное на телугу и хинди и переведенное на английский язык).
При тестировании с помощью BLASER 2.0, который позволяет оценивать речевые и текстовые единицы, модель работала лучше с фоновыми шумами и изменениями говорящего в задачах преобразования речи в текст (со средним улучшением 37% и 48% соответственно) по сравнению с текущей версией. современные модели для задач преобразования речи в текст.
«SeamlessM4T превосходит предыдущих современных конкурентов», — заявила Мета в своем блоге. «Мы также значительно улучшаем производительность поддерживаемых языков с низким и средним уровнем ресурсов (с меньшим цифровым следом) и поддерживаем высокую производительность на языках с высокими ресурсами (например, английском)».
Когда это будет разработано, это может привести к созданию крупномасштабных универсальных систем перевода, позволяющих людям, говорящим на разных языках, общаться более эффективно.
Примечательно, что Google также работает в этом направлении и анонсировала универсальную модель речи (USM), которая может выполнять автоматическое распознавание речи (ASR) как для широко распространенных, так и для языков с ограниченными ресурсами.
Как все это работает?
Чтобы воплотить модель в жизнь, Meta извлекла веб-данные (десятки миллиардов предложений) и речь (4 миллиона часов) из общедоступных источников и выровняла их для создания набора данных SeamlessAlign. В общей сложности компания заявила, что ей удалось согласовать более 443 000 часов речи с текстами и создать около 29 000 часов согласования речи с речью. Используя эти данные, компания обучила многозадачную модель UnitY для получения желаемых мультимодальных результатов.
«Многозадачная модель UnitY состоит из трех основных последовательных компонентов», — объясняет Мета. «Задачей кодировщиков текста и речи является распознавание ввода почти на 100 языках. Затем текстовый декодер передает это значение текста почти на 100 языков, после чего следует модель преобразования текста в единицы для декодирования в дискретные акустические единицы для 36 языков речи… Декодированные дискретные единицы затем преобразуются в речь с помощью многоязычного устройства HiFi-GAN. вокодер».
Еще не идеально
Тем не менее, важно отметить, что SeamlessM4T на данный момент далек от совершенства. Оценки показали, что эта модель имеет как дополнительную токсичность (хотя на 63% меньше, чем у современных моделей), так и проблемы гендерной предвзятости.
Согласно официальному документу, подробно описывающему технологию, SeamlessM4T обобщает формы мужского рода при переводе с нейтральных терминов (со средним предпочтением примерно 10%), но демонстрирует недостаточную надежность при изменении пола примерно на 3%.
«Мы обнаруживаем токсичность как на входе, так и на выходе демо-версии», — сказал Мета. «Если токсичность обнаруживается только на выходе, это означает, что токсичность добавляется. В этом случае мы включаем предупреждение и не показываем выходные данные… Что касается предвзятости, мы начали наши усилия по оценке гендерной предвзятости в языках в масштабе. Теперь мы можем количественно оценить гендерную предвзятость в десятках направлений перевода речи, распространив на речь наш ранее разработанный набор данных Multilingual HolisticBias».
Компания подчеркнула, что это постоянная работа, и что она продолжит исследования и принимать меры в этих областях для дальнейшего повышения надежности и безопасности модели SeamlessM4T.
[ad_2]
Источник