[ad_1]
Язык имеет фундаментальное значение для человеческого взаимодействия, но не менее важны и эмоции, стоящие за ним.
Выражение счастья, печали, гнева, разочарования или других чувств помогает передать наши сообщения и объединить нас.
Хотя генеративный ИИ преуспел во многих других областях, ему сложно уловить эти нюансы и обработать тонкости человеческих эмоций.
Typecast, стартап, использующий искусственный интеллект для создания синтетических голосов и видео, заявляет, что совершает революцию в этой области благодаря своей новой технологии Cross-Speaker Emotion Transfer.
Технология позволяет пользователям применять эмоции, записанные из голоса другого человека, к своим собственным, сохраняя при этом свой уникальный стиль, что позволяет быстрее и эффективнее создавать контент. Он доступен сегодня через функцию My Voice Maker от Typecast.
«Актерам ИИ еще предстоит полностью охватить эмоциональный диапазон людей, который является их самым большим ограничивающим фактором», — сказал Таесу Ким, генеральный директор и соучредитель южнокорейской компании Neosapience and Typecast.
Благодаря новой технологии Typecast Cross-Speaker Emotion Transfer «любой может использовать ИИ-актёров с реальной эмоциональной глубиной, основанной лишь на небольшом образце их голоса».
Расшифровка эмоций
Хотя эмоции обычно делятся на семь категорий — счастье, печаль, гнев, страх, удивление и отвращение, основанные на универсальных движениях лица, — этого недостаточно, чтобы выразить широкий спектр эмоций в генерируемой речи, отметил Ким.
Говорение — это не просто однозначное сопоставление данного текста и выходной речи, отметил он.
«Люди могут произносить одно и то же предложение тысячами разных способов», — сказал он VentureBeat в эксклюзивном интервью. Мы также можем выражать разные эмоции в одном предложении (или даже в одном и том же слове).
Например, записав предложение «Как ты можешь со мной так поступить?» с эмоциональной подсказкой «Грустным голосом, словно разочарованный» будет совершенно отличаться от эмоциональной подсказки «Злится, как будто ругается».
Точно так же эмоция, описанная в подсказке: «Так грустно, потому что ее отец скончался, но на ее лице улыбка», сложна, и ее нелегко определить в одной конкретной категории.
«Люди могут говорить с разными эмоциями, и это приводит к насыщенным и разнообразным разговорам», — пишут Ким и другие исследователи в статье о своей новой технологии.
Эмоциональные ограничения преобразования текста в речь
Технология преобразования текста в речь добилась значительных успехов всего за короткий период времени, во главе с моделями ChatGPT, LaMDA, LLama, Bard, Claude и другими действующими игроками, а также новыми участниками.
Эмоциональное преобразование текста в речь также продемонстрировало значительный прогресс, но для этого требуется большой объем размеченных данных, к которым нелегко получить доступ, объяснил Ким. Запечатлеть тонкости различных эмоций посредством записи голоса было отнимающим много времени и трудным делом.
Более того, «чрезвычайно сложно записывать несколько предложений в течение длительного времени, последовательно сохраняя при этом эмоции», — пишут Ким и его коллеги.
По его словам, при традиционном синтезе эмоциональной речи все обучающие данные должны иметь метку эмоции. Эти методы часто требуют дополнительного кодирования эмоций или эталонного звука.
Но это представляет собой фундаментальную проблему, поскольку должны быть доступны данные для каждой эмоции и каждого говорящего. Кроме того, существующие подходы подвержены проблемам неправильной маркировки, поскольку им трудно выявить интенсивность.
Передача эмоций между говорящими становится еще более сложной, когда говорящему приписывают невидимую эмоцию. Технология до сих пор работала плохо, поскольку неестественно, чтобы эмоциональная речь воспроизводилась нейтральным говорящим, а не исходным говорящим. Кроме того, контроль интенсивности эмоций часто невозможен.
«Даже если возможно получить набор эмоциональных речевых данных», — пишут Ким и его коллеги-исследователи, — «все равно существует ограничение в контроле интенсивности эмоций».
Использование глубоких нейронных сетей, обучение без учителя
Чтобы решить эту проблему, исследователи сначала ввели метки эмоций в генеративную глубокую нейронную сеть — то, что Ким назвал первым в мире. Несмотря на успех, этого метода было недостаточно для выражения сложных эмоций и стилей речи.
Затем исследователи создали алгоритм обучения без присмотра, который распознавал стили речи и эмоции из большой базы данных. По словам Ким, во время обучения вся модель обучалась без каких-либо эмоций.
Это обеспечило репрезентативное количество выступлений. Хотя эти представления не поддаются интерпретации человеком, их можно использовать в алгоритмах преобразования текста в речь для выражения эмоций, существующих в базе данных.
Исследователи дополнительно обучили нейронную сеть восприятия переводить описания эмоций на естественном языке в представления.
«Благодаря этой технологии пользователю не нужно записывать сотни или тысячи различных стилей речи/эмоций, поскольку он учится на большой базе данных различных эмоциональных голосов», — сказал Ким.
Адаптация к характеристикам голоса по фрагментам
Исследователи добились «передаваемого и контролируемого синтеза речи эмоций», используя скрытую репрезентацию, пишут они. Состязательное обучение предметной области и потеря последовательности цикла отвлекают говорящего от стиля.
Технология учится на огромном количестве записанных человеческих голосов — через аудиокниги, видео и другие носители — для анализа и понимания эмоциональных моделей, тонов и интонаций.
Ким объяснила, что этот метод успешно передает эмоции говорящему с нейтральным стилем чтения с помощью всего лишь нескольких помеченных образцов, а интенсивность эмоций можно контролировать с помощью простого и интуитивно понятного скалярного значения.
По его словам, это помогает добиться передачи эмоций естественным путем, не меняя идентичности. Пользователи могут записать базовый фрагмент своего голоса и применить различные эмоции и интенсивность, а ИИ может адаптироваться к конкретным характеристикам голоса.
Пользователи могут выбирать различные типы эмоциональной речи, записанной кем-то другим, и применять этот стиль к своему голосу, сохраняя при этом свою уникальную голосовую индивидуальность. Записав всего пять минут своего голоса, они могут выразить счастье, печаль, гнев или другие эмоции, даже если они говорят нормальным тоном.
Технология Typecast используется Samsung Securities в Южной Корее (дочерней компанией Samsung Group), LG Electronics в Корее и другими, а с момента ее основания в 2017 году компания привлекла 26,8 млрд долларов. Сейчас стартап работает над применением своих основных технологий в речи. синтез с выражением лица, сказал Ким.
Управляемость имеет решающее значение для генеративного ИИ
Медиа-среда быстро меняется, отметил Ким.
В прошлом текстовые блоги были самым популярным форматом корпоративных СМИ. Но сейчас господствуют короткие видеоролики, и компаниям и частным лицам приходится производить гораздо больше аудио- и видеоконтента и чаще.
«Чтобы донести корпоративное послание, необходим высококачественный выразительный голос», — сказал Ким.
Он добавил, что быстрое и доступное производство имеет первостепенное значение: ручной труд людей просто неэффективен.
«Управляемость в генеративном искусственном интеллекте имеет решающее значение для создания контента», — сказал Ким. «Мы считаем, что эти технологии помогают обычным людям и компаниям раскрыть свой творческий потенциал и повысить производительность».
[ad_2]
Источник