MARS5 TTS
MARS5 adalah model ucapan baru untuk prosodi gila.
Terdaftar dalam kategori:
GitHubRekayasa Perangkat LunakKecerdasan buatanDeskripsi
MARS5 adalah model TTS ucapan bahasa Inggris yang baru dari CAMBAI. Ini mengikuti pipa AR-NAR dua tahap dengan komponen NAR yang sangat baru, memungkinkannya untuk menghasilkan ucapan untuk skenario yang sulit secara prosodis dan beragam seperti komentar olahraga dan anime. Model ini dapat dikendalikan dengan tanda baca dan kapitalisasi untuk memandu prosodi output. Identitas pembicara dapat ditentukan menggunakan file referensi audio, meningkatkan kualitas output.
Cara menggunakan MARS5 TTS?
Untuk menggunakan MARS5, muat model AR dan NAR dari torch hub, pilih audio referensi dan opsionalnya transkripnya, pilih antara klon dangkal atau klon mendalam inferensi, dan lakukan sintesis untuk menghasilkan output ucapan. Sesuaikan pengaturan inferensi untuk hasil yang optimal.
Fitur inti dari MARS5 TTS:
1️⃣
Pipa AR-NAR dua tahap
2️⃣
Panduan prosodi dengan tanda baca dan kapitalisasi
3️⃣
Spesifikasi identitas pembicara
4️⃣
Kloning mendalam untuk kualitas yang ditingkatkan
5️⃣
Penyetelan pengaturan inferensi
Mengapa bisa digunakan MARS5 TTS?
# | Kasus Penggunaan | Status | |
---|---|---|---|
# 1 | Komentar olahraga | ✅ | |
# 2 | Dubbing suara anime | ✅ | |
# 3 | Kloning suara | ✅ |
Dikembangkan oleh MARS5 TTS?
CAMBAI adalah tim penelitian dari insinyur Carnegie Mellon mantan Siri yang dipublikasikan oleh Interspeech, yang berdedikasi untuk membuat suara setiap orang penting. Mereka dengan senang hati menyambut kontribusi dan terbuka untuk kolaborasi.