Stability AI привносит новую ясность и мощь в создание звука AI с помощью Stable Audio 2.0.

[ad_1]

Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросите приглашение здесь.

Stability AI сегодня продолжает продвигать свое видение генеративного искусственного интеллекта с помощью аудиомодели Stable Audio 2.0.

Stability AI, пожалуй, наиболее известна своими моделями Stable Diffusion преобразования текста в изображение, но это лишь одна из многих моделей, над которыми работает компания. Первый выпуск Stable Audio состоялся в сентябре 2023 года, в котором пользователи получили возможность создавать короткие аудиоклипы с помощью простой текстовой подсказки. С помощью Stable Audio 2.0 пользователи могут создавать высококачественные аудиодорожки продолжительностью до 3 минут, что вдвое больше 90 секунд, чем было включено в первоначальной версии Stable Audio.

Помимо поддержки преобразования текста в аудио, Stable Audio 2.0 также будет поддерживать создание аудио в аудио, при котором пользователи загружают образец, который они хотят использовать в качестве подсказки. Stability AI делает Stable Audio доступным для ограниченного бесплатного использования на веб-сайте Stable Audio, а вскоре будет доступен доступ к API, чтобы разработчики могли создавать сервисы.

Новая версия Stable Audio 2.0 — это первая крупная модель, выпущенная Stability AI с тех пор, как бывший генеральный директор и основатель компании Эмад Мостак внезапно подал в отставку в конце марта. По словам компании, дела идут как обычно, и обновление Stable Audio 2.0 является тому подтверждением.

Уроки, извлеченные из Stable Audio 1.0, информированной версии 2.0

Stability AI повторила свой первоначальный опыт разработки Stable Audio в 2023 году.

Зак Эванс, руководитель отдела исследований звука в Stability AI, рассказал VentureBeat, что в первом выпуске Stable Audio 1.0 основное внимание уделялось запуску революционной модели преобразования текста в аудио с исключительной точностью воспроизведения звука и значимой продолжительностью вывода.

«С момента первого выпуска мы посвятили себя повышению его музыкальности, увеличению продолжительности вывода и оттачиванию его способности точно реагировать на подробные подсказки», — сказал Эванс. «Эти улучшения направлены на оптимизацию технологии для практических, реальных приложений».

Stable Audio 2.0 предоставляет возможность создавать полноценные музыкальные треки с последовательной музыкальной структурой. Используя технологию скрытой диффузии, модель может генерировать композиции продолжительностью до 3 минут, содержащие отдельные вступительные, развивающие и завершающие части. Это усовершенствование по сравнению с предыдущим выпуском Stable Audio, которое позволяло создавать только короткие петли или фрагменты, а не полноценные песни.

Глядя на науку машинного обучения (ML), лежащую в основе Stable Audio 2.0, модель по-прежнему опирается на так называемую модель скрытой диффузии (LDM). Эванс объяснил, что с момента выхода бета-версии обновления Stable Audio 1.1, вышедшего в декабре, Stable Audio имеет основу-трансформер, что делает ее тем, что он назвал моделью «диффузионного трансформатора».

«Мы также увеличили степень сжатия данных, применяемого к аудиоданным во время обучения, что позволяет нам масштабировать выходные данные модели до трех минут и более, сохраняя при этом разумное время вывода», — сказал Эванс.

Преобразование аудиосэмплов с помощью текстовых подсказок

Помимо генерации звука из текстовых подсказок, Stable Audio 2.0 обеспечивает переходы между звуками.

Пользователи могут загружать образцы аудио и использовать инструкции на естественном языке для преобразования звуков в новые вариации. Это открывает возможности для творческих рабочих процессов, таких как итеративная обработка и редактирование аудио с помощью текстовых указаний.

Stable Audio 2.0 также значительно расширяет диапазон звуковых эффектов и текстур, которые могут быть созданы с помощью генерации искусственного интеллекта. Пользователи могут предложить системе создать захватывающую среду, окружающие текстуры, толпы, городские пейзажи и многое другое. Модель также позволяет изменять стиль и тон сгенерированных или загруженных аудиосэмплов.

Авторские права имеют значение для аудио поколения AI

Постоянное беспокойство в сфере искусственного интеллекта вызывает правильное использование исходного материала для обучения модели.

Stability AI уделяет приоритетное внимание защите интеллектуальной собственности в своей новой аудиомодели. Чтобы решить проблемы с авторскими правами, Stable Audio 2.0 обучалась исключительно на лицензионных данных AudioSparx, при этом запросы на отказ были удовлетворены. Загрузка аудио отслеживается с помощью распознавания контента, чтобы предотвратить обработку материалов, защищенных авторским правом.

Защита авторских прав имеет решающее значение для обеспечения того, чтобы Stability AI мог коммерциализировать Stable Audio, а технология могла безопасно использоваться организациями. Stable Audio в настоящее время монетизируется посредством подписок на веб-приложение Stable Audio и вскоре будет доступно через Stable Audio API.

Однако Stable Audio не является открытой моделью, по крайней мере, пока.

«Весовые коэффициенты для Stable Audio 2.0 не будут доступны для загрузки; однако мы работаем над моделями открытого звука, которые будут выпущены позднее в этом году», — сказал Эванс.

[ad_2]

Источник

Stability AI привносит новую ясность и мощь в создание звука AI с помощью Stable Audio 2.0.

Уроки, извлеченные из Stable Audio 1.0, информированной версии 2.0

Преобразование аудиосэмплов с помощью текстовых подсказок

Авторские права имеют значение для аудио поколения AI

Тут интересно

Вам может понравиться

Большие ставки откроют реальную ценность генеративного искусственного интеллекта

Nvidia запускает квантовые компьютерные центры на платформе CUDA-Q

Новые правила для внедрения городских роботов предложили в Московском политехе

Вы отстаете в области генеративного искусственного интеллекта?

Откуда мы пришли? Исследование резкого роста интереса к данным и инструментам обработки данных

Cisco переосмысливает кибербезопасность на RSAC 2024 с помощью искусственного интеллекта и прозрачности на уровне ядра

Сэм Альтман опровергает слухи о поисковой системе OpenAI

Последнее партнерство Perplexity направлено на поддержку голосового помощника SoundHound

Голосовые ИИ-агенты навсегда изменят индустрию поддержки клиентов

AI Beat: зачем OpenAI поисковая система?

Invoke AI представляет усовершенствованные функции управления генерацией изображений

Apple Vision Pro, возможно, провалился, но за пространственными вычислениями все еще будущее, говорит Deloitte

Обзор сервисов ИИ

Daily AI

Популярное

Stability AI привносит новую ясность и мощь в создание звука AI с помощью Stable Audio 2.0.

Уроки, извлеченные из Stable Audio 1.0, информированной версии 2.0

Преобразование аудиосэмплов с помощью текстовых подсказок

Авторские права имеют значение для аудио поколения AI

Проект Stargate: Революционный суперкомпьютер от Microsoft и OpenAI за $100 млрд

DALL-E 3 от OpenAI представляет новый редактор

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное