要約
最近の研究では、テキストではなく、自己教師形式で学習された低ビットレートの離散単位に基づいて高品質の音声を再合成することが可能であることが示されており、そのため転写するのが難しい音声の表現的な側面を捉えることができます。
韻律、音声スタイル、非言語発声)。
これらの方法の採用は、ほとんどの音声合成データセットが読み取られるという事実によって依然として制限されており、自発性と表現力が大幅に制限されています。
ここでは、テキストレス音声合成用の高品質な表現力豊かな音声データセットである Expresso を紹介します。Expresso には、26 の自発的な表現スタイルでレンダリングされた読み上げ音声と即興対話の両方が含まれています。
表現力豊かな再合成ベンチマークを使用して、このデータセットの課題と可能性を説明します。このベンチマークでは、入力を低ビットレート単位でエンコードし、コンテンツとスタイルを維持しながらターゲット音声で再合成することがタスクとなります。
さまざまな自己監視型離散エンコーダーの自動メトリクスを使用して再合成の品質を評価し、品質、ビットレート、話者やスタイルに対する不変性の間のトレードオフを調査します。
すべてのデータセット、評価指標、ベースライン モデルはオープンソースです
要約(オリジナル)
Recent work has shown that it is possible to resynthesize high-quality speech based, not on text, but on low bitrate discrete units that have been learned in a self-supervised fashion and can therefore capture expressive aspects of speech that are hard to transcribe (prosody, voice styles, non-verbal vocalization). The adoption of these methods is still limited by the fact that most speech synthesis datasets are read, severely limiting spontaneity and expressivity. Here, we introduce Expresso, a high-quality expressive speech dataset for textless speech synthesis that includes both read speech and improvised dialogues rendered in 26 spontaneous expressive styles. We illustrate the challenges and potentials of this dataset with an expressive resynthesis benchmark where the task is to encode the input in low-bitrate units and resynthesize it in a target voice while preserving content and style. We evaluate resynthesis quality with automatic metrics for different self-supervised discrete encoders, and explore tradeoffs between quality, bitrate and invariance to speaker and style. All the dataset, evaluation metrics and baseline models are open source
arxiv情報
著者 | Tu Anh Nguyen,Wei-Ning Hsu,Antony D’Avirro,Bowen Shi,Itai Gat,Maryam Fazel-Zarani,Tal Remez,Jade Copet,Gabriel Synnaeve,Michael Hassid,Felix Kreuk,Yossi Adi,Emmanuel Dupoux |
発行日 | 2023-08-10 17:41:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google