Subscribe to get weekly email with the most promising tools 🚀

MARS5 TTS

MARS5 é um novo modelo de fala para uma prosódia louca.

Listado em categorias:

GitHubEngenharia de softwareInteligência artificial
MARS5 TTS-image-0
MARS5 TTS-image-1

Descrição

MARS5 é um novo modelo de fala em inglês TTS da CAMBAI. Segue um pipeline AR-NAR de duas etapas com um componente NAR distintamente novo, permitindo gerar fala para cenários prosódicos difíceis e diversos como comentários esportivos e anime. O modelo pode ser controlado com pontuação e maiúsculas para guiar a prosódia da saída. A identidade do falante pode ser especificada usando um arquivo de referência de áudio, melhorando a qualidade da saída.

Como usar MARS5 TTS?

Para usar o MARS5, carregue os modelos AR e NAR do torch hub, escolha um áudio de referência e opcionalmente seu transcrição, escolha entre clonagem rasa ou profunda para inferência e realize a síntese para gerar a saída de fala. Ajuste as configurações de inferência para obter resultados ótimos.

Recursos principais de MARS5 TTS:

1️⃣

Pipeline AR-NAR de duas etapas

2️⃣

Orientação de prosódia com pontuação e maiúsculas

3️⃣

Especificação de identidade do falante

4️⃣

Clone profundo para qualidade aprimorada

5️⃣

Ajuste de configurações de inferência

Por que usar MARS5 TTS?

#Caso de usoStatus
# 1Comentários esportivos
# 2Dublagem de voz de anime
# 3Clonagem de voz
0

Desenvolvido por MARS5 TTS?

A CAMBAI é uma equipe de pesquisa de engenheiros ex-Siri da Carnegie Mellon publicados na Interspeech, dedicada a fazer a voz de todos contar. Eles recebem ativamente contribuições e estão abertos a colaborações.

FAQ de MARS5 TTS