MARS5 TTS
MARS5是一种新型的语音模型,用于疯狂的韵律。
列在类别中:
GitHub软件工程人工智能描述
MARS5是CAMBAI推出的一款新颖的英语语音模型TTS。它采用了两阶段AR-NAR流水线,具有独特的新颖NAR组件,使其能够为体现韵律的困难和多样化场景(如体育评论和动漫)生成语音。该模型可以通过标点和大写字母来引导输出的韵律。可以使用音频参考文件指定说话者身份,提高输出质量。
如何使用 MARS5 TTS?
要使用MARS5,从torch hub加载AR和NAR模型,选择一个参考音频,可选地提供其文本,选择浅层或深层克隆推理,并执行合成以生成语音输出。调整推理设置以获得最佳结果。
核心功能 MARS5 TTS:
1️⃣
两阶段AR-NAR流水线
2️⃣
通过标点和大写字母引导韵律
3️⃣
说话者身份规范
4️⃣
深度克隆以提高质量
5️⃣
推理设置调整
为什么要使用 MARS5 TTS?
# | 使用案例 | 状态 | |
---|---|---|---|
# 1 | 体育评论 | ✅ | |
# 2 | 动漫配音 | ✅ | |
# 3 | 语音克隆 | ✅ |
开发者 MARS5 TTS?
CAMBAI是由Interspeech发表的卡内基梅隆前Siri工程师组成的研究团队,致力于让每个人的声音都有价值。他们积极欢迎贡献并愿意进行合作。