[ad_1]
Овладев искусством клонирования и синтеза голоса на основе машинного обучения (ML), ElevenLabs, двухлетний стартап в области искусственного интеллекта, основанный бывшими сотрудниками Google и Palantir, собирается расширить свое портфолио за счет новой модели преобразования текста в звук.
ИИ, о котором дразнили несколько часов назад, позволит создателям создавать звуковые эффекты, просто описывая словами свое воображение. Ожидается, что в эпоху цифрового опыта, основанного на искусственном интеллекте, он по-новому обогатит контент.
Модель недоступна публично, но ElevenLabs продемонстрировала свои возможности, выпустив минутный тизер с видеороликами, созданными с помощью новой Sora от OpenAI и дополненными собственными звуками искусственного интеллекта. Компания также создала страницу регистрации и призывает потенциальных пользователей присоединиться к списку ожидания раннего доступа к модели.
Выйдя за рамки голоса со звуковыми эффектами искусственного интеллекта
Основанная в 2022 году компания ElevenLabs занимается исследованием искусственного интеллекта, чтобы сделать аудио- и видеоконтент — от фильмов до подкастов — доступным на разных языках и в разных географических регионах. Компания представила ряд предложений для достижения этой цели, в том числе модели преобразования текста в речь и речи в речь, которые могут воспроизводить речь ИИ из заданного фрагмента контента (текста/аудио/видео) на 29 различных языках, обеспечивая при этом естественное голос и эмоции (оригинальный голос говорящего в режиме речи в речь).
Хотя оба этих инструмента по-прежнему широко используются предприятиями и частными лицами, производящими контент, также наблюдается рост контента, полностью создаваемого искусственным интеллектом, благодаря таким инструментам, как Runway, Pika и совсем недавно OpenAI (с Sora). Эти продукты генерируют реалистичные видеоролики с использованием искусственного интеллекта из простых текстовых подсказок, но им не хватает звука по умолчанию. Именно здесь появится новая модель ElevenLabs, позволяющая пользователям создавать звуковые эффекты для своего контента, описывая то, что они хотят.
При использовании это предложение может легко позволить создателям искусственного интеллекта улучшить свою работу с помощью фоновых звуков, которые естественным образом должны сопровождать его. Звуковой эффект может быть любым: от щебетания птиц до движущихся транспортных средств и гудков. Это могут быть даже люди, которые разговаривают, едят или гуляют по оживленной улице.
«В ElevenLabs мы когда-либо демонстрировали публично только наши модели преобразования текста в речь. Однако у нас есть еще много чего в разработке. И когда OpenAI анонсировала свою модель Sora, которая генерирует невероятные видео, но без звука, мы решили показать краткий обзор нашей новой линейки продуктов», — написал Люк Харрис, руководитель отдела развития в ElevenLabs, поделившись постом X, в котором было представлено множество Видео, созданные Sora, дополнены звуковыми эффектами искусственного интеллекта из модели компании.
Помимо контента, сгенерированного искусственным интеллектом, звуки, производимые новой моделью, могут быть даже применены к простой речи, полученной из текста или любого другого видео — клипа из Instagram, рекламы или трейлера видеоигры — которые нуждаются в небольшом количестве фонового звука. Еще неизвестно, как он используется и какое качество он обеспечивает.
Зарегистрируйтесь для раннего доступа
Хотя ElevenLabs не сообщила, когда планирует публично запустить модель, компания открыла регистрацию для раннего доступа. Заинтересованные пользователи могут перейти на эту страницу и зарегистрироваться, указав свое имя и адрес электронной почты, описав, для чего им нужны звуковые эффекты. ElevenLabs также просит первых добровольцев написать образец звукового эффекта ИИ, возможно, для оптимизации ответов модели.
После завершения регистрации пользователь включается в список ожидания и получит доступ, когда модель станет доступной. Однако на данном этапе сроки остаются неопределенными.
Новая технология преобразования текста в звук может дать ElevenLabs преимущество первопроходца, но важно отметить, что несколько других компаний, которые активно работают в области речи ИИ, также имеют потенциал для выхода в этот сегмент. Сюда входят такие известные игроки, как MURF.AI, Play.ht и WellSaid Labs.
По данным Market US, мировой рынок таких инструментов в 2022 году составлял 1,2 миллиарда долларов и, по оценкам, достигнет почти 5 миллиардов долларов в 2032 году, при этом среднегодовой темп роста чуть выше 15,40%.
[ad_2]
Источник