Subscribe to get weekly email with the most promising tools 🚀

MARS5 est un nouveau modèle de parole pour une prosodie folle.

Listé dans les catégories:

GitHubGénie logicielIntelligence artificielle
MARS5 TTS-image-0
MARS5 TTS-image-1

Description

MARS5 est un nouveau modèle de synthèse vocale en anglais de CAMBAI. Il suit un pipeline AR-NAR en deux étapes avec un composant NAR distinctif et novateur, ce qui lui permet de générer de la parole pour des scénarios prosodiquement difficiles et divers comme les commentaires sportifs et les animes. Le modèle peut être dirigé avec la ponctuation et la capitalisation pour guider la prosodie de la sortie. L'identité du locuteur peut être spécifiée en utilisant un fichier audio de référence, améliorant ainsi la qualité de la sortie.

Comment utiliser MARS5 TTS?

Pour utiliser MARS5, chargez les modèles AR et NAR depuis torch hub, choisissez un audio de référence et éventuellement sa transcription, choisissez entre un clonage superficiel ou profond pour l'inférence, et effectuez la synthèse pour générer la sortie vocale. Ajustez les paramètres d'inférence pour des résultats optimaux.

Fonctionnalités principales de MARS5 TTS:

1️⃣

Pipeline AR-NAR en deux étapes

2️⃣

Guidage de la prosodie avec la ponctuation et la capitalisation

3️⃣

Spécification de l'identité du locuteur

4️⃣

Clonage profond pour une qualité améliorée

5️⃣

Réglage des paramètres d'inférence

Pourquoi pourrait-il être utilisé MARS5 TTS?

#Cas d'utilisationStatut
# 1Commentaires sportifs
# 2Doublage vocal d'animes
# 3Clonage vocal
0

Développé par MARS5 TTS?

CAMBAI est une équipe de recherche composée d'ingénieurs de Carnegie Mellon ex-Siri, publiés dans Interspeech, dédiée à faire en sorte que la voix de chacun compte. Ils accueillent activement les contributions et sont ouverts aux collaborations.

FAQ de MARS5 TTS