[ad_1]
В мире искусственного интеллекта наступила новая эра, и, похоже, Amazon решил не отставать от коллективного марша прогресса. Согласно недавней публикации Райана Доуса, старшего редактора TechForge Media, исследователи из Amazon обучили новую крупномасштабную языковую модель (LLM) для преобразования текста в речь, которая, как утверждается, обладает “возникающими” способностями. Ну что ж, давайте разберемся, что же это за зверь такой – этот BASE TTS с 980 миллионами параметров.
На первый взгляд, может показаться, что Amazon просто играет в числа, добавляя еще несколько миллионов параметров к уже немалому количеству. Но не стоит спешить с выводами! Судя по всему, они действительно нашли золотую середину между “большим” и “слишком большим”. Для понимания, исследователи обучили модели разного размера на данных до 100 000 часов публичных речевых данных, чтобы проверить, увидят ли они те же скачки производительности, которые происходят в моделях обработки естественного языка, когда они перерастают определенный масштаб.
И вот что интересно: их средняя модель с 400 миллионами параметров, обученная на 10 000 часах аудио, показала заметное улучшение в универсальности и надежности на сложных тестовых предложениях. Эти предложения содержали сложные лексические, синтаксические и паралингвистические особенности, такие как составные существительные, эмоции, иностранные слова и пунктуация, которые обычно ставят в тупик системы преобразования текста в речь.
Однако самая большая версия модели с 980 миллионами параметров, обученная на 100 000 часов аудио, не продемонстрировала дополнительных способностей по сравнению с версией с 400 миллионами параметров. Так что, возможно, не всегда “больше” значит “лучше”.
Исследователи планируют дальнейшую работу по определению оптимального размера модели для возникающих способностей. И вот это уже звучит как настоящее приключение в мире искусственного интеллекта! Кто знает, может быть, именно эти исследования приведут нас к созданию искусственного интеллекта, способного вести себя еще более естественно и убедительно.
Так что, если вас волнует будущее искусственного интеллекта и вы любите следить за последними новинками в этой области, не пропустите полную статью о BASE TTS на arXiv. И, кто знает, может быть, в скором времени мы сможем общаться с AI так же естественно, как и с живыми людьми. В любом случае, одно можно сказать наверняка: будущее уже не за горами, и оно обещает быть весьма и весьма интересным.
[ad_2]
Источник