banner

[ad_1]

ElevenLabs, стартап, основанный год назад и использующий возможности машинного обучения для клонирования и синтеза голоса, сегодня объявил о расширении своей платформы новой моделью преобразования текста в речь, поддерживающей 30 языков.

Расширение знаменует собой официальный выход платформы из бета-фазы, что делает ее готовой к использованию предприятиями и частными лицами, желающими настроить свой контент для аудитории по всему миру. Это произошло более чем через месяц после раунда А ElevenLabs стоимостью 19 миллионов долларов, в результате которого компания была оценена почти в 100 миллионов долларов.

«ElevenLabs была основана с мечтой сделать весь контент общедоступным на любом языке и любым голосом. С выпуском Eleven Multilingual v2 мы стали на шаг ближе к тому, чтобы воплотить эту мечту в реальность и сделать голоса искусственного интеллекта человеческого качества доступными на всех диалектах», — заявил в своем заявлении Мати Станишевски, генеральный директор и соучредитель компании.

«В конечном итоге мы надеемся охватить еще больше языков и голосов с помощью ИИ и устранить лингвистические барьеры для контента», — добавил он.

Eleven Multilingual v2: Чем это полезно?

ElevenLabs предлагает два основных продукта искусственного интеллекта, ориентированных на голос: синтез речи и VoiceLab.

Первый представляет собой инструмент синтеза, который генерирует естественно звучащую речь на основе текстового ввода. Последний представляет собой своего рода надстройку, которая дает пользователям возможность клонировать свои собственные голоса или генерировать совершенно новые синтетические голоса (путем случайной выборки вокальных параметров) для использования с инструментом синтеза.

Как только пользователь создает свой собственный голос, он может подключить его к инструменту преобразования текста в речь, чтобы преобразовать любой короткий или длинный контент по своему выбору в предпочитаемую речь – без каких-либо усилий. В качестве альтернативы они также могут использовать несколько готовых голосов ИИ от компании или голосов, созданных и опубликованных сообществом.

Вначале инструмент синтеза начинался с модели, воспроизводящей речь только на английском языке. Позже она была расширена до Eleven Multilingual версии 1, в которой ввод текста и голоса искусственного интеллекта использовались для генерации речи на шести языках: английском, польском, немецком, испанском, французском, итальянском, португальском и хинди.

Теперь, с выпуском Eleven Multilingual версии 2, это предложение теперь может синтезировать речь еще на 30 языках. Сюда входят корейский, голландский, турецкий, шведский, индонезийский, вьетнамский, филиппинский, украинский, греческий, чешский, финский, румынский, датский, болгарский, малайский, венгерский, норвежский, словацкий, хорватский, классический арабский и тамильский.

По сути, этот шаг означает, что человек сможет клонировать свой голос и использовать его для создания речи на десятках языков, ориентированных на разные рынки.

По данным ElevenLabs, пользователь должен ввести текст на выбранном им языке, выбрать нужный голос (предварительно созданный, синтетический или клонированный) и настроить несколько речевых параметров. Модель автоматически определит письменный язык и будет использовать заданные параметры для генерации речи на нем. Он также сохраняет уникальные характеристики выбранного голоса на всех языках, включая его оригинальный акцент.

«Наша модель способна понимать отношения между словами и корректировать доставку в зависимости от контекста («контекстное» преобразование текста в речь). Поскольку в модели нет жестко запрограммированных голосовых функций, она может надежно прогнозировать тысячи голосовых характеристик при создании голосов ИИ. Это означает, что модель ElevenLabs может учитывать текст, окружающий каждое сгенерированное высказывание, для поддержания соответствующего потока, вместо того, чтобы генерировать каждое высказывание отдельно, что может создавать голоса, которые звучат как роботы», — рассказал Станишевски VentureBeat.

Широкое применение инструмента преобразования текста в речь

С момента запуска бета-версии ElevenLabs вызвала интерес как со стороны предприятий, так и создателей, и утверждает, что зарегистрировала более миллиона пользователей по всему миру. Ожидается, что последний запуск не только увеличит пользовательскую базу платформы, но и объем контента, который она генерирует ежедневно.

«У нас есть ряд корпоративных клиентов, использующих наши продукты, и их варианты использования разнообразны: от озвучивания персонажей в видеоиграх до озвучивания аватаров службы поддержки клиентов, от записи аудиокниг до создания контента для людей с ослабленным зрением», — пояснил Станишевски.

Совсем недавно компания сотрудничала с ArXiv, чтобы опубликовать все свои статьи с аудиоверсией для дополнительной доступности. Компания также заключила партнерское соглашение с Storytel, чтобы расширить возможности аудиокниг, предлагая дополнительные голоса искусственного интеллекта наряду с рассказчиками-людьми. Генеральный директор ожидает, что в какой-то момент в будущем компания сможет полностью дублировать весь фильм на несколько языков, сохраняя при этом акценты и эмоции оригинальных актеров.

Еще не все

В рамках этой миссии ElevenLabs планирует расширить свои продукты за счет большего количества языков и функций, включая инструмент проектов, который облегчит пользователям структурирование и редактирование их развернутого контента. По словам Станишевского, это добавит уровень простоты «Google Docs» к генерации речи из более длинного контента.

«К концу года мы также планируем выпустить бета-версию нашего инструмента дубляжа с искусственным интеллектом, который позволит пользователям мгновенно преобразовывать речь с одного языка на другой, сохраняя при этом исходный голос говорящего», — отметил он.

В этой области генерации голоса и речи с помощью искусственного интеллекта ElevenLabs конкурирует с такими игроками, как MURF.AI, Play.ht и WellSaid Labs. По данным Market US, мировой рынок таких инструментов в 2022 году составлял 1,2 миллиарда долларов и, по оценкам, достигнет почти 5 миллиардов долларов в 2032 году, при этом среднегодовой темп роста чуть выше 15,40%.

[ad_2]

Источник

banner

Вам может понравиться

Обзор сервисов ИИ

Искусственный интеллект

Daily AI

ИИ в жизни, бизнесе, науке и искусстве.

@2024 All Right Reserved. Designed and Developed by PenciDesign