MARS5 TTS
MARS5 è un nuovo modello di discorso per una prosodia folle.
Elencato nelle categorie:
GitHubIngegneria del softwareIntelligenza artificialeDescrizione
MARS5 è un nuovo modello di sintesi vocale in inglese TTS da CAMBAI. Segue un pipeline AR-NAR a due fasi con un componente NAR distintamente innovativo, che consente di generare discorsi per scenari prosodicamente complessi e diversi come i commenti sportivi e gli anime. Il modello può essere guidato con punteggiatura e maiuscole per indirizzare la prosodia dell'output. L'identità del parlante può essere specificata utilizzando un file audio di riferimento, migliorando la qualità dell'output.
Come usare MARS5 TTS?
Per utilizzare MARS5, carica i modelli AR e NAR da torch hub, scegli un audio di riferimento e facoltativamente il suo trascritto, scegli tra clonazione superficiale o profonda per l'inferenza e esegui la sintesi per generare l'output vocale. Regola le impostazioni di inferenza per ottenere risultati ottimali.
Funzionalità principali di MARS5 TTS:
1️⃣
Pipeline AR-NAR a due fasi
2️⃣
Guida della prosodia con punteggiatura e maiuscole
3️⃣
Specificazione dell'identità del parlante
4️⃣
Clonazione profonda per una qualità migliorata
5️⃣
Taratura delle impostazioni di inferenza
Perché potrebbe essere usato MARS5 TTS?
# | Caso d'uso | Stato | |
---|---|---|---|
# 1 | Commenti sportivi | ✅ | |
# 2 | Doppiaggio vocale degli anime | ✅ | |
# 3 | Clonazione della voce | ✅ |
Sviluppato da MARS5 TTS?
CAMBAI è un team di ricerca di ex ingegneri di Siri di Carnegie Mellon pubblicati da Interspeech, dedicato a far sentire la voce di tutti. Accolgono attivamente contributi e sono aperti a collaborazioni.