ElevenLabs представляет AI Dubbing, переводящий видео и аудио на 20 языков

[ad_1]

ElevenLabs, стартап по клонированию и синтезу голоса, основанный бывшими сотрудниками Google и Palantir, сегодня объявил о запуске AI Dubbing, специального продукта, который может переводить любую речь, включая длинный контент, на более чем 20 различных языков.

Это предложение, доступное всем пользователям платформы, представляет собой новый способ дублирования аудио- и видеоконтента и может изменить область, которая в течение многих лет в основном выполнялась вручную.

Что еще более важно, это может сломать языковые барьеры для небольших создателей контента, у которых нет ресурсов для найма ручных переводчиков для преобразования своего контента и распространения его по всему миру.

«Мы протестировали и повторили эту функцию в сотрудничестве с сотнями создателей контента, чтобы дублировать их контент и сделать его более доступным для более широкой аудитории», — рассказал VentureBeat Мати Станишевски, генеральный директор и соучредитель ElevenLabs. «Мы видим огромный потенциал для независимых креативщиков, например, создающих видеоконтент и подкасты, вплоть до кино- и телестудий».

ElevenLabs утверждает, что эта функция может обеспечить высококачественный переведенный звук за считанные минуты (в зависимости от длины контента), сохраняя при этом исходный голос говорящего с его эмоциями и интонацией.

Однако в эпоху искусственного интеллекта, когда почти каждое предприятие рассматривает языковые модели для повышения эффективности, оно не единственное, кто занимается переводом речи в речь.

Дубляж с использованием искусственного интеллекта: как это работает

Хотя перевод с помощью искусственного интеллекта включает в себя несколько уровней работы, начиная от удаления шума и заканчивая переводом речи, пользователям на стороне интерфейса не нужно выполнять ни один из этих шагов. Им просто нужно выбрать инструмент AI Dubbing на ElevenLabs, создать новый проект, выбрать исходный и целевой языки и загрузить файл с контентом.

После загрузки контента инструмент автоматически определяет количество говорящих и приступает к работе, на экране появляется индикатор выполнения. Это похоже на любой другой инструмент конвертации в Интернете. После завершения файл можно скачать и использовать.

За кулисами инструмент работает, используя запатентованный метод ElevenLabs для удаления фонового шума, отличая музыку и шум от реального диалога из динамиков. Он распознает, кто и когда говорит, сохраняя разборчивость их голосов, и расшифровывает то, что они говорят, на языке оригинала, используя модель преобразования речи в текст. Затем этот текст переводится, адаптируется (чтобы длина совпадала) и озвучивается на целевом языке, чтобы воспроизвести желаемую речь, сохраняя при этом исходные голосовые характеристики говорящего.

Наконец, переведенная речь синхронизируется с музыкой и фоновым шумом, первоначально удаленными из файла, подготавливая дублированный результат к использованию. EvenLabs утверждает, что эта работа является кульминацией ее исследований в области клонирования голоса, обработки текста и аудио, а также многоязычного синтеза речи.

Для создания финальной речи из переведенного текста компания использует свою новейшую модель Multilingual v2. В настоящее время он поддерживает более 20 языков, включая хинди, португальский, испанский, японский, украинский, польский и арабский, предоставляя пользователям широкий спектр возможностей для глобализации своего контента.

До появления этого сквозного интерфейса ElevenLabs предлагала отдельные инструменты для клонирования голоса и синтеза речи. Таким образом, если кто-то хотел перевести свой аудиоконтент, например подкаст, на другой язык, ему сначала нужно было создать клон своего голоса на платформе, одновременно расшифровывая и переводя звук отдельно. Затем, используя переведенный текстовый файл и клонированную речь, они смогли создать звук из модели преобразования текста в речь. Не говоря уже о том, что это работало только для речи без какой-либо основной фоновой музыки или шума.

Станишевски подтвердил, что новая функция дублирования будет доступна всем пользователям платформы, но будет иметь некоторые ограничения на количество символов, как это было в случае с преобразованием текста в речь. По его словам, одна минута дубляжа с использованием искусственного интеллекта обычно соответствует 3000 символам.

Голоса на основе искусственного интеллекта скоро появятся

Хотя ElevenLabs попадает в заголовки газет благодаря постоянным разработкам, она единственная, кто занимается озвучиванием на основе искусственного интеллекта. Несколько недель назад компания OpenAI, поддерживаемая Microsoft, сделала ChatGPT мультимодальным с возможностью вести разговоры в ответ на голосовые подсказки, как Alexa.

Здесь компания также использует модели преобразования речи в текст и текст в речь для преобразования звука, но эта технология доступна не всем.

OpenAI заявила, что использует его с избранными партнерами, чтобы предотвратить злоупотребление возможностями. Одним из них является Spotify, который помогает своим подкастерам транскрибировать свой контент на разные языки, сохраняя при этом свой собственный голос.

Со своей стороны, Станишевски сказал, что инструмент искусственного дублирования ElevenLabs отличается тем, что переводит видео или аудио любой длины, содержащее любое количество говорящих, сохраняя при этом их голос и эмоции на 20 языках и обеспечивая результаты высочайшего качества.

Другие игроки также активно работают в области синтеза голоса и речи на основе искусственного интеллекта, в том числе MURF.AI, Play.ht и WellSaid Labs.

Совсем недавно Meta также запустила SeamlessM4T, многоязычную базовую модель с открытым исходным кодом, которая может понимать почти 100 языков по речи или тексту и генерировать переводы на любой из них или на оба в режиме реального времени.

По данным Market US, мировой рынок таких инструментов в 2022 году составлял 1,2 миллиарда долларов и, по оценкам, достигнет почти 5 миллиардов долларов в 2032 году, при этом среднегодовой темп роста чуть выше 15,40%.

[ad_2]

Источник

ElevenLabs представляет AI Dubbing, переводящий видео и аудио на 20 языков

Дубляж с использованием искусственного интеллекта: как это работает

Голоса на основе искусственного интеллекта скоро появятся

Тут интересно

Вам может понравиться

Ozon тестирует ИИ-генератор фотографий для карточек товаров

8 удивительных инструментов искусственного интеллекта, которые произведут революцию в вашем рабочем процессе

Открытый vs. закрытый код: кто побеждает в битве AI?

Какие профессии искусственный интеллект отберет и подарит

Функция Memory теперь доступна для всех пользователей ChatGPT Plus

Искусственный интеллект может сделать страхование более доступным

Будущее розничной торговли: тренды, управляемые искусственным интеллектом

Революционное решение для медицины в условиях ограниченных ресурсов с использованием Meta Llama

Лучшие типы контента, генерируемого искусственным интеллектом в маркетинге

Искусственный интеллект на службе у хип-хопа: новый трек Дрейка с голосами Тупака и Снуп Догга

Эволюция и стоимость обучения искусственного интеллекта: от Transformers до Gemini Ultra

Stable Diffusion 3 API теперь доступен разработчика

Обзор сервисов ИИ

Daily AI

Популярное

ElevenLabs представляет AI Dubbing, переводящий видео и аудио на 20 языков

Дубляж с использованием искусственного интеллекта: как это работает

Голоса на основе искусственного интеллекта скоро появятся

Google DeepMind возвращается в гонку искусственного интеллекта с открытым исходным кодом с новой моделью Gemma

Нейросети и ИИ: Перезагрузка e-commerce и инструменты повышающие прибыль

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное