MARS5 TTS
MARS5 é um novo modelo de fala para uma prosódia louca.
Listado em categorias:
GitHubEngenharia de softwareInteligência artificialDescrição
MARS5 é um novo modelo de fala em inglês TTS da CAMBAI. Segue um pipeline AR-NAR de duas etapas com um componente NAR distintamente novo, permitindo gerar fala para cenários prosódicos difíceis e diversos como comentários esportivos e anime. O modelo pode ser controlado com pontuação e maiúsculas para guiar a prosódia da saída. A identidade do falante pode ser especificada usando um arquivo de referência de áudio, melhorando a qualidade da saída.
Como usar MARS5 TTS?
Para usar o MARS5, carregue os modelos AR e NAR do torch hub, escolha um áudio de referência e opcionalmente seu transcrição, escolha entre clonagem rasa ou profunda para inferência e realize a síntese para gerar a saída de fala. Ajuste as configurações de inferência para obter resultados ótimos.
Recursos principais de MARS5 TTS:
1️⃣
Pipeline AR-NAR de duas etapas
2️⃣
Orientação de prosódia com pontuação e maiúsculas
3️⃣
Especificação de identidade do falante
4️⃣
Clone profundo para qualidade aprimorada
5️⃣
Ajuste de configurações de inferência
Por que usar MARS5 TTS?
# | Caso de uso | Status | |
---|---|---|---|
# 1 | Comentários esportivos | ✅ | |
# 2 | Dublagem de voz de anime | ✅ | |
# 3 | Clonagem de voz | ✅ |
Desenvolvido por MARS5 TTS?
A CAMBAI é uma equipe de pesquisa de engenheiros ex-Siri da Carnegie Mellon publicados na Interspeech, dedicada a fazer a voz de todos contar. Eles recebem ativamente contribuições e estão abertos a colaborações.