Subscribe to get weekly email with the most promising tools 🚀

MARS5 TTS

MARS5 es un nuevo modelo de habla para una prosodia loca.

Listado en categorías:

GitHubIngeniería de softwareInteligencia artificial
MARS5 TTS-image-0
MARS5 TTS-image-1

Descripción

MARS5 es un nuevo modelo de habla en inglés TTS de CAMBAI. Sigue un pipeline AR-NAR de dos etapas con un componente NAR distintivamente novedoso, lo que le permite generar habla para escenarios prosódicamente difíciles y diversos como comentarios deportivos y anime. El modelo puede ser guiado con puntuación y mayúsculas para guiar la prosodia de la salida. La identidad del hablante se puede especificar utilizando un archivo de referencia de audio, mejorando la calidad de la salida.

Cómo usar MARS5 TTS?

Para usar MARS5, cargue los modelos AR y NAR desde torch hub, elija un audio de referencia y opcionalmente su transcripción, elija entre una clonación superficial o profunda para la inferencia, y realice la síntesis para generar la salida de habla. Ajuste las configuraciones de inferencia para obtener resultados óptimos.

Características principales de MARS5 TTS:

1️⃣

Pipeline AR-NAR de dos etapas

2️⃣

Guía de prosodia con puntuación y mayúsculas

3️⃣

Especificación de identidad del hablante

4️⃣

Clonación profunda para mejorar la calidad

5️⃣

Ajuste de configuraciones de inferencia

Por qué podría ser usado MARS5 TTS?

#Caso de UsoEstado
# 1Comentarios deportivos
# 2Doblaje de voz de anime
# 3Clonación de voz
0

Desarrollado por MARS5 TTS?

CAMBAI es un equipo de investigación de ingenieros ex-Siri de Carnegie Mellon publicados en Interspeech, dedicado a hacer que la voz de todos cuente. Aceptan activamente contribuciones y están abiertos a colaboraciones.

Preguntas frecuentes de MARS5 TTS