要約
コーデックベースの Text-to-Speech (TTS) モデルは、ゼロショット音声クローン作成機能により優れた品質を示しています。
ただし、より表現力豊かな参照や複雑なテキスト入力に苦労することがよくあります。
高速で表現力豊かな TTS のための堅牢なエンコーダー/デコーダー トランスフォーマーである MARS6 を紹介します。
MARS6 は、音声言語モデリングの最近の改善に基づいて構築されています。
デコーダの階層セットアップを利用することで、新しい音声トークンがわずか 12 Hz の速度で処理され、再構成品質を維持しながら長文テキストの効率的なモデリングが可能になります。
いくつかの最新のトレーニングおよび推論技術を組み合わせて、繰り返しの生成を減らし、出力の安定性と品質を向上させます。
これにより、70M パラメータの MARS6 は、何倍も大きなモデルと同様のパフォーマンスを達成できます。
これを、TTS 出力品質と基準話者の複製能力を比較する客観的評価と主観的評価で示します。
プロジェクトページ:https://camb-ai.github.io/mars6-turbo/
要約(オリジナル)
Codec-based text-to-speech (TTS) models have shown impressive quality with zero-shot voice cloning abilities. However, they often struggle with more expressive references or complex text inputs. We present MARS6, a robust encoder-decoder transformer for rapid, expressive TTS. MARS6 is built on recent improvements in spoken language modelling. Utilizing a hierarchical setup for its decoder, new speech tokens are processed at a rate of only 12 Hz, enabling efficient modelling of long-form text while retaining reconstruction quality. We combine several recent training and inference techniques to reduce repetitive generation and improve output stability and quality. This enables the 70M-parameter MARS6 to achieve similar performance to models many times larger. We show this in objective and subjective evaluations, comparing TTS output quality and reference speaker cloning ability. Project page: https://camb-ai.github.io/mars6-turbo/
arxiv情報
著者 | Matthew Baas,Pieter Scholtz,Arnav Mehta,Elliott Dyson,Akshat Prakash,Herman Kamper |
発行日 | 2025-01-10 08:41:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google