Услышьте свое воображение: ElevenLabs запустит искусственный интеллект для звуковых эффектов

[ad_1]

Овладев искусством клонирования и синтеза голоса на основе машинного обучения (ML), ElevenLabs, двухлетний стартап в области искусственного интеллекта, основанный бывшими сотрудниками Google и Palantir, собирается расширить свое портфолио за счет новой модели преобразования текста в звук.

ИИ, о котором дразнили несколько часов назад, позволит создателям создавать звуковые эффекты, просто описывая словами свое воображение. Ожидается, что в эпоху цифрового опыта, основанного на искусственном интеллекте, он по-новому обогатит контент.

Модель недоступна публично, но ElevenLabs продемонстрировала свои возможности, выпустив минутный тизер с видеороликами, созданными с помощью новой Sora от OpenAI и дополненными собственными звуками искусственного интеллекта. Компания также создала страницу регистрации и призывает потенциальных пользователей присоединиться к списку ожидания раннего доступа к модели.

Мы были потрясены объявлением о Соре, но чувствовали, что в этом что-то нужно…

Что, если бы вы могли описать звук и сгенерировать его с помощью ИИ? pic.twitter.com/HcUxQ7Wndg

— ОдиннадцатьЛабс (@elevenlabsio) 18 февраля 2024 г.

Выйдя за рамки голоса со звуковыми эффектами искусственного интеллекта

Основанная в 2022 году компания ElevenLabs занимается исследованием искусственного интеллекта, чтобы сделать аудио- и видеоконтент — от фильмов до подкастов — доступным на разных языках и в разных географических регионах. Компания представила ряд предложений для достижения этой цели, в том числе модели преобразования текста в речь и речи в речь, которые могут воспроизводить речь ИИ из заданного фрагмента контента (текста/аудио/видео) на 29 различных языках, обеспечивая при этом естественное голос и эмоции (оригинальный голос говорящего в режиме речи в речь).

Хотя оба этих инструмента по-прежнему широко используются предприятиями и частными лицами, производящими контент, также наблюдается рост контента, полностью создаваемого искусственным интеллектом, благодаря таким инструментам, как Runway, Pika и совсем недавно OpenAI (с Sora). Эти продукты генерируют реалистичные видеоролики с использованием искусственного интеллекта из простых текстовых подсказок, но им не хватает звука по умолчанию. Именно здесь появится новая модель ElevenLabs, позволяющая пользователям создавать звуковые эффекты для своего контента, описывая то, что они хотят.

При использовании это предложение может легко позволить создателям искусственного интеллекта улучшить свою работу с помощью фоновых звуков, которые естественным образом должны сопровождать его. Звуковой эффект может быть любым: от щебетания птиц до движущихся транспортных средств и гудков. Это могут быть даже люди, которые разговаривают, едят или гуляют по оживленной улице.

«В ElevenLabs мы когда-либо демонстрировали публично только наши модели преобразования текста в речь. Однако у нас есть еще много чего в разработке. И когда OpenAI анонсировала свою модель Sora, которая генерирует невероятные видео, но без звука, мы решили показать краткий обзор нашей новой линейки продуктов», — написал Люк Харрис, руководитель отдела развития в ElevenLabs, поделившись постом X, в котором было представлено множество Видео, созданные Sora, дополнены звуковыми эффектами искусственного интеллекта из модели компании.

Помимо контента, сгенерированного искусственным интеллектом, звуки, производимые новой моделью, могут быть даже применены к простой речи, полученной из текста или любого другого видео — клипа из Instagram, рекламы или трейлера видеоигры — которые нуждаются в небольшом количестве фонового звука. Еще неизвестно, как он используется и какое качество он обеспечивает.

Хотя ElevenLabs не сообщила, когда планирует публично запустить модель, компания открыла регистрацию для раннего доступа. Заинтересованные пользователи могут перейти на эту страницу и зарегистрироваться, указав свое имя и адрес электронной почты, описав, для чего им нужны звуковые эффекты. ElevenLabs также просит первых добровольцев написать образец звукового эффекта ИИ, возможно, для оптимизации ответов модели.

После завершения регистрации пользователь включается в список ожидания и получит доступ, когда модель станет доступной. Однако на данном этапе сроки остаются неопределенными.

Новая технология преобразования текста в звук может дать ElevenLabs преимущество первопроходца, но важно отметить, что несколько других компаний, которые активно работают в области речи ИИ, также имеют потенциал для выхода в этот сегмент. Сюда входят такие известные игроки, как MURF.AI, Play.ht и WellSaid Labs.

По данным Market US, мировой рынок таких инструментов в 2022 году составлял 1,2 миллиарда долларов и, по оценкам, достигнет почти 5 миллиардов долларов в 2032 году, при этом среднегодовой темп роста чуть выше 15,40%.

[ad_2]

Источник

Услышьте свое воображение: ElevenLabs запустит искусственный интеллект для звуковых эффектов

Выйдя за рамки голоса со звуковыми эффектами искусственного интеллекта

Тут интересно

Вам может понравиться

Ozon тестирует ИИ-генератор фотографий для карточек товаров

8 удивительных инструментов искусственного интеллекта, которые произведут революцию в вашем рабочем процессе

Открытый vs. закрытый код: кто побеждает в битве AI?

Какие профессии искусственный интеллект отберет и подарит

Функция Memory теперь доступна для всех пользователей ChatGPT Plus

Искусственный интеллект может сделать страхование более доступным

Будущее розничной торговли: тренды, управляемые искусственным интеллектом

Революционное решение для медицины в условиях ограниченных ресурсов с использованием Meta Llama

Лучшие типы контента, генерируемого искусственным интеллектом в маркетинге

Искусственный интеллект на службе у хип-хопа: новый трек Дрейка с голосами Тупака и Снуп Догга

Эволюция и стоимость обучения искусственного интеллекта: от Transformers до Gemini Ultra

Stable Diffusion 3 API теперь доступен разработчика

Обзор сервисов ИИ

Daily AI

Популярное

Услышьте свое воображение: ElevenLabs запустит искусственный интеллект для звуковых эффектов

Выйдя за рамки голоса со звуковыми эффектами искусственного интеллекта

Зарегистрируйтесь для раннего доступа

Генеративный искусственный интеллект, IAM и программы, основанные на культуре, будут определять кибербезопасность в 2024 году, говорит Gartner

Как аудиоразъем с использованием искусственного интеллекта может исказить аудиотранзакции в реальном времени

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное