MARS5 TTS
MARS5は狂気的な韻律のための新しい音声モデルです。
カテゴリーにリストされています:
GitHubソフトウェアエンジニアリング人工知能説明
MARS5はCAMBAIからの新しい英語音声モデルTTSです。これは、独自のNARコンポーネントを備えた2段階のAR-NARパイプラインに従い、スポーツ実況やアニメなどのプロソディ的に難しいさまざまなシナリオの音声を生成できるようになっています。モデルは句読点や大文字を使用して出力のプロソディをガイドすることができます。スピーカーのアイデンティティはオーディオリファレンスファイルを使用して指定することができ、出力の品質を向上させることができます。
使い方 MARS5 TTS?
MARS5を使用するには、torch hubからARとNARモデルをロードし、リファレンスオーディオとオプションでそのトランスクリプトを選択し、浅いまたは深いクローン推論の間で選択し、合成を実行して音声出力を生成します。最適な結果を得るために推論設定を調整してください。
の主な機能 MARS5 TTS:
1️⃣
2段階のAR-NARパイプライン
2️⃣
句読点と大文字によるプロソディのガイダンス
3️⃣
スピーカーのアイデンティティの指定
4️⃣
品質向上のためのディープクローン
5️⃣
推論設定の調整
なぜ使用するのか MARS5 TTS?
# | ユースケース | ステータス | |
---|---|---|---|
# 1 | スポーツ実況 | ✅ | |
# 2 | アニメの声優 | ✅ | |
# 3 | 音声クローニング | ✅ |
開発者 MARS5 TTS?
CAMBAIはInterspeechで発表されたカーネギーメロン大学出身の元Siriエンジニアからなる研究チームで、誰もが声を発信できるようにすることに専念しています。彼らは積極的に貢献を歓迎し、共同作業にも開かれています。