[ad_1]
Компания OpenAI рассказала о модели искусственного интеллекта Voice Engine, которая копирует голос человека и генерирует синтетическую речь на основе предоставленных пользователем аудиосэмплов. По данным OpenAI, ИИ требуется всего 15 секунд звука для имитации говорящего. В своем блоге компания описала Voice Engine как «маленькую модель»: это предполагает, что для ее работы требуется ограниченная вычислительная инфраструктура.
Инструмент был разработан еще в конце 2022 года. OpenAI использует его для реализации функций ChatGPT, которые позволяют взаимодействовать с чат-ботом с помощью голосовых команд и «заставляют» его читать текст вслух. Кроме того, в прошлом году компания открыла доступ к модели ограниченному числу партнеров в рамках пилотной программы. Они успешно применили Voice Engine для таких задач, как создание закадрового голоса для образовательного контента и перевода видео.
Компания сообщает, что участники пилотной программы согласились воспроизводить голоса людей только с их разрешения. Кроме того, клиенты должны добавлять к генерируемой речи информацию о том, что она синтетическая.
«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к новым возможностям, — написали сотрудники OpenAI в блоге. — На основе этих дискуссий и результатов небольших испытаний мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах».
Если OpenAI решит сделать Voice Engine коммерчески доступным, модель ИИ может создать серьезную конкуренцию существующим на рынке сервисам по синтезу речи. Eleven Labs, один из стартапов в этом сегменте, недавно привлек $80 млн инвестиций и заявил, что его пользовательская база включает более 40% компаний из списка Fortune 500.
Текст: Майя Цветкова
Изображение: Freepik
[ad_2]
Источник