Subscribe to get weekly email with the most promising tools 🚀

MARS5 - новая модель речи для безумной просодии.

Перечислено в категориях:

GitHubПрограммная инженерияИскусственный интеллект
MARS5 TTS-image-0
MARS5 TTS-image-1

Описание

MARS5 - это новая модель синтеза речи на английском языке от CAMBAI. Она следует двухэтапному AR-NAR конвейеру с отличительным новым компонентом NAR, что позволяет ей генерировать речь для просодически сложных и разнообразных сценариев, таких как спортивные комментарии и аниме. Модель может быть управляема с помощью знаков препинания и заглавных букв для регулирования просодии выходного звука. Идентификацию диктора можно указать с помощью аудио-файла-эталона, улучшая качество выходного звука.

Как использовать MARS5 TTS?

Для использования MARS5 загрузите модели AR и NAR из torch hub, выберите аудио-файл-эталон и при необходимости его транскрипцию, выберите между поверхностным или глубоким клонированием вывода и выполните синтез для генерации речевого вывода. Настройте параметры вывода для оптимальных результатов.

Основные функции MARS5 TTS:

1️⃣

Двухэтапный AR-NAR конвейер

2️⃣

Управление просодией с помощью знаков препинания и заглавных букв

3️⃣

Указание идентификации диктора

4️⃣

Глубокое клонирование для улучшения качества

5️⃣

Настройка параметров вывода

Почему использовать MARS5 TTS?

#Сценарий использованияСтатус
# 1Спортивные комментарии
# 2Озвучивание аниме
# 3Клонирование голоса
0

Разработано MARS5 TTS?

CAMBAI - это исследовательская команда бывших инженеров Siri из Carnegie Mellon, опубликовавших работы на конференции Interspeech, посвященная тому, чтобы голос каждого имел значение. Они активно приветствуют вклад и открыты для сотрудничества.

Часто задаваемые вопросы MARS5 TTS