MARS5 TTS
MARS5 é um novo modelo de fala para uma prosódia louca.
Listado em categorias:
GitHubEngenharia de softwareInteligência artificial![MARS5 TTS-image-0](https://product-list.sfo3.digitaloceanspaces.com/products/mars5-tts/images/1e58e0ce-d380-4c36-86fd-1416b69f9fe4.jpeg)
![MARS5 TTS-image-1](https://product-list.sfo3.digitaloceanspaces.com/products/mars5-tts/images/27a6125f-18d1-4c40-a133-250f3ced8003.jpeg)
Descrição
MARS5 é um novo modelo de fala em inglês TTS da CAMBAI. Segue um pipeline AR-NAR de duas etapas com um componente NAR distintamente novo, permitindo gerar fala para cenários prosódicos difíceis e diversos como comentários esportivos e anime. O modelo pode ser controlado com pontuação e maiúsculas para guiar a prosódia da saída. A identidade do falante pode ser especificada usando um arquivo de referência de áudio, melhorando a qualidade da saída.
Como usar MARS5 TTS?
Para usar o MARS5, carregue os modelos AR e NAR do torch hub, escolha um áudio de referência e opcionalmente seu transcrição, escolha entre clonagem rasa ou profunda para inferência e realize a síntese para gerar a saída de fala. Ajuste as configurações de inferência para obter resultados ótimos.
Recursos principais de MARS5 TTS:
1️⃣
Pipeline AR-NAR de duas etapas
2️⃣
Orientação de prosódia com pontuação e maiúsculas
3️⃣
Especificação de identidade do falante
4️⃣
Clone profundo para qualidade aprimorada
5️⃣
Ajuste de configurações de inferência
Por que usar MARS5 TTS?
# | Caso de uso | Status | |
---|---|---|---|
# 1 | Comentários esportivos | ✅ | |
# 2 | Dublagem de voz de anime | ✅ | |
# 3 | Clonagem de voz | ✅ |
Desenvolvido por MARS5 TTS?
A CAMBAI é uma equipe de pesquisa de engenheiros ex-Siri da Carnegie Mellon publicados na Interspeech, dedicada a fazer a voz de todos contar. Eles recebem ativamente contribuições e estão abertos a colaborações.