要約
広く話されていない言語や、トレーニング データで十分に表現されていないアクセントや方言を持つ話者に対するテキスト読み上げにおける話者適応には、大きな課題があります。
この問題に対処するために、「アダプターの混合」方法の使用を提案します。
このアプローチには、バックボーン モデル層内に複数のアダプターを追加して、さまざまなスピーカーの固有の特性を学習することが含まれます。
私たちのアプローチはベースラインを上回っており、新しい話者ごとに 1 分間のデータのみを使用した場合の話者好みテストで 5% の顕著な改善が観察されました。
さらに、アダプター パラダイムに従って、アダプター パラメーター (モデル パラメーター全体の 11%) のみを微調整します。
これは、パラメータ効率の高い話者適応における重要な成果であり、この種の最初のモデルの 1 つです。
全体として、私たちが提案するアプローチは、特に多様な背景を持つ話者に適応するために、音声合成技術に対する有望なソリューションを提供します。
要約(オリジナル)
There are significant challenges for speaker adaptation in text-to-speech for languages that are not widely spoken or for speakers with accents or dialects that are not well-represented in the training data. To address this issue, we propose the use of the ‘mixture of adapters’ method. This approach involves adding multiple adapters within a backbone-model layer to learn the unique characteristics of different speakers. Our approach outperforms the baseline, with a noticeable improvement of 5% observed in speaker preference tests when using only one minute of data for each new speaker. Moreover, following the adapter paradigm, we fine-tune only the adapter parameters (11% of the total model parameters). This is a significant achievement in parameter-efficient speaker adaptation, and one of the first models of its kind. Overall, our proposed approach offers a promising solution to the speech synthesis techniques, particularly for adapting to speakers from diverse backgrounds.
arxiv情報
著者 | Ambuj Mehrish,Abhinav Ramesh Kashyap,Li Yingting,Navonil Majumder,Soujanya Poria |
発行日 | 2023-05-29 11:39:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google