[ad_1]
Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросите приглашение здесь.
Stability AI сегодня продолжает продвигать свое видение генеративного искусственного интеллекта с помощью аудиомодели Stable Audio 2.0.
Stability AI, пожалуй, наиболее известна своими моделями Stable Diffusion преобразования текста в изображение, но это лишь одна из многих моделей, над которыми работает компания. Первый выпуск Stable Audio состоялся в сентябре 2023 года, в котором пользователи получили возможность создавать короткие аудиоклипы с помощью простой текстовой подсказки. С помощью Stable Audio 2.0 пользователи могут создавать высококачественные аудиодорожки продолжительностью до 3 минут, что вдвое больше 90 секунд, чем было включено в первоначальной версии Stable Audio.
Помимо поддержки преобразования текста в аудио, Stable Audio 2.0 также будет поддерживать создание аудио в аудио, при котором пользователи загружают образец, который они хотят использовать в качестве подсказки. Stability AI делает Stable Audio доступным для ограниченного бесплатного использования на веб-сайте Stable Audio, а вскоре будет доступен доступ к API, чтобы разработчики могли создавать сервисы.
Новая версия Stable Audio 2.0 — это первая крупная модель, выпущенная Stability AI с тех пор, как бывший генеральный директор и основатель компании Эмад Мостак внезапно подал в отставку в конце марта. По словам компании, дела идут как обычно, и обновление Stable Audio 2.0 является тому подтверждением.
Уроки, извлеченные из Stable Audio 1.0, информированной версии 2.0
Stability AI повторила свой первоначальный опыт разработки Stable Audio в 2023 году.
Зак Эванс, руководитель отдела исследований звука в Stability AI, рассказал VentureBeat, что в первом выпуске Stable Audio 1.0 основное внимание уделялось запуску революционной модели преобразования текста в аудио с исключительной точностью воспроизведения звука и значимой продолжительностью вывода.
«С момента первого выпуска мы посвятили себя повышению его музыкальности, увеличению продолжительности вывода и оттачиванию его способности точно реагировать на подробные подсказки», — сказал Эванс. «Эти улучшения направлены на оптимизацию технологии для практических, реальных приложений».
Stable Audio 2.0 предоставляет возможность создавать полноценные музыкальные треки с последовательной музыкальной структурой. Используя технологию скрытой диффузии, модель может генерировать композиции продолжительностью до 3 минут, содержащие отдельные вступительные, развивающие и завершающие части. Это усовершенствование по сравнению с предыдущим выпуском Stable Audio, которое позволяло создавать только короткие петли или фрагменты, а не полноценные песни.
Глядя на науку машинного обучения (ML), лежащую в основе Stable Audio 2.0, модель по-прежнему опирается на так называемую модель скрытой диффузии (LDM). Эванс объяснил, что с момента выхода бета-версии обновления Stable Audio 1.1, вышедшего в декабре, Stable Audio имеет основу-трансформер, что делает ее тем, что он назвал моделью «диффузионного трансформатора».
«Мы также увеличили степень сжатия данных, применяемого к аудиоданным во время обучения, что позволяет нам масштабировать выходные данные модели до трех минут и более, сохраняя при этом разумное время вывода», — сказал Эванс.
Преобразование аудиосэмплов с помощью текстовых подсказок
Помимо генерации звука из текстовых подсказок, Stable Audio 2.0 обеспечивает переходы между звуками.
Пользователи могут загружать образцы аудио и использовать инструкции на естественном языке для преобразования звуков в новые вариации. Это открывает возможности для творческих рабочих процессов, таких как итеративная обработка и редактирование аудио с помощью текстовых указаний.
Stable Audio 2.0 также значительно расширяет диапазон звуковых эффектов и текстур, которые могут быть созданы с помощью генерации искусственного интеллекта. Пользователи могут предложить системе создать захватывающую среду, окружающие текстуры, толпы, городские пейзажи и многое другое. Модель также позволяет изменять стиль и тон сгенерированных или загруженных аудиосэмплов.
Авторские права имеют значение для аудио поколения AI
Постоянное беспокойство в сфере искусственного интеллекта вызывает правильное использование исходного материала для обучения модели.
Stability AI уделяет приоритетное внимание защите интеллектуальной собственности в своей новой аудиомодели. Чтобы решить проблемы с авторскими правами, Stable Audio 2.0 обучалась исключительно на лицензионных данных AudioSparx, при этом запросы на отказ были удовлетворены. Загрузка аудио отслеживается с помощью распознавания контента, чтобы предотвратить обработку материалов, защищенных авторским правом.
Защита авторских прав имеет решающее значение для обеспечения того, чтобы Stability AI мог коммерциализировать Stable Audio, а технология могла безопасно использоваться организациями. Stable Audio в настоящее время монетизируется посредством подписок на веб-приложение Stable Audio и вскоре будет доступно через Stable Audio API.
Однако Stable Audio не является открытой моделью, по крайней мере, пока.
«Весовые коэффициенты для Stable Audio 2.0 не будут доступны для загрузки; однако мы работаем над моделями открытого звука, которые будут выпущены позднее в этом году», — сказал Эванс.
[ad_2]
Источник