Subscribe to get weekly email with the most promising tools 🚀

MARS5 TTS-image-0
MARS5 TTS-image-1

Descrizione

MARS5 è un nuovo modello di sintesi vocale in inglese TTS da CAMBAI. Segue un pipeline AR-NAR a due fasi con un componente NAR distintamente innovativo, che consente di generare discorsi per scenari prosodicamente complessi e diversi come i commenti sportivi e gli anime. Il modello può essere guidato con punteggiatura e maiuscole per indirizzare la prosodia dell'output. L'identità del parlante può essere specificata utilizzando un file audio di riferimento, migliorando la qualità dell'output.

Come usare MARS5 TTS?

Per utilizzare MARS5, carica i modelli AR e NAR da torch hub, scegli un audio di riferimento e facoltativamente il suo trascritto, scegli tra clonazione superficiale o profonda per l'inferenza e esegui la sintesi per generare l'output vocale. Regola le impostazioni di inferenza per ottenere risultati ottimali.

Funzionalità principali di MARS5 TTS:

1️⃣

Pipeline AR-NAR a due fasi

2️⃣

Guida della prosodia con punteggiatura e maiuscole

3️⃣

Specificazione dell'identità del parlante

4️⃣

Clonazione profonda per una qualità migliorata

5️⃣

Taratura delle impostazioni di inferenza

Perché potrebbe essere usato MARS5 TTS?

#Caso d'usoStato
# 1Commenti sportivi
# 2Doppiaggio vocale degli anime
# 3Clonazione della voce

Sviluppato da MARS5 TTS?

CAMBAI è un team di ricerca di ex ingegneri di Siri di Carnegie Mellon pubblicati da Interspeech, dedicato a far sentire la voce di tutti. Accolgono attivamente contributi e sono aperti a collaborazioni.

Domande frequenti di MARS5 TTS