MARS5 TTS
MARS5 - новая модель речи для безумной просодии.
Перечислено в категориях:
GitHubПрограммная инженерияИскусственный интеллектОписание
MARS5 - это новая модель синтеза речи на английском языке от CAMBAI. Она следует двухэтапному AR-NAR конвейеру с отличительным новым компонентом NAR, что позволяет ей генерировать речь для просодически сложных и разнообразных сценариев, таких как спортивные комментарии и аниме. Модель может быть управляема с помощью знаков препинания и заглавных букв для регулирования просодии выходного звука. Идентификацию диктора можно указать с помощью аудио-файла-эталона, улучшая качество выходного звука.
Как использовать MARS5 TTS?
Для использования MARS5 загрузите модели AR и NAR из torch hub, выберите аудио-файл-эталон и при необходимости его транскрипцию, выберите между поверхностным или глубоким клонированием вывода и выполните синтез для генерации речевого вывода. Настройте параметры вывода для оптимальных результатов.
Основные функции MARS5 TTS:
1️⃣
Двухэтапный AR-NAR конвейер
2️⃣
Управление просодией с помощью знаков препинания и заглавных букв
3️⃣
Указание идентификации диктора
4️⃣
Глубокое клонирование для улучшения качества
5️⃣
Настройка параметров вывода
Почему использовать MARS5 TTS?
# | Сценарий использования | Статус | |
---|---|---|---|
# 1 | Спортивные комментарии | ✅ | |
# 2 | Озвучивание аниме | ✅ | |
# 3 | Клонирование голоса | ✅ |
Разработано MARS5 TTS?
CAMBAI - это исследовательская команда бывших инженеров Siri из Carnegie Mellon, опубликовавших работы на конференции Interspeech, посвященная тому, чтобы голос каждого имел значение. Они активно приветствуют вклад и открыты для сотрудничества.