要約
音声クローン作成は、パーソナライズされた音声インターフェイスの顕著な機能です。
ニューラルボーカルクローンシステムは、ほんの数個のオーディオサンプルを使用して誰かの声を模倣することができます。
話者エンコーディングと話者適応はどちらも、音声クローン作成の分野における研究テーマです。
話者適応は、マルチ話者生成モデルの微調整に依存します。これには、話者エンコーディングに使用される新しい話者埋め込みを推論するための別のモデルのトレーニングが含まれます。
どちらの方法でも、クローン音声の数が少ない場合でも、音声の自然さと元の話者との類似性の点で優れたパフォーマンスを達成できます。
スピーカー エンコーディングのアプローチは、スピーカー アダプテーションよりも必要なメモリが大幅に少なく、クローン作成時間が速く、より自然さと類似性がわずかに向上するため、低リソースの展開に適しています。
主な目標は、ネパール語のアクセントまたはネパール語のように聞こえるオーディオ出力を生成するボーカル クローン システムを作成することです。
TTS をさらに進歩させるために、転移学習のアイデアが効果的に使用され、オーディオ品質の低下や利用可能なデータの不足など、このシステムの開発中に遭遇したいくつかの問題に対処しました。
要約(オリジナル)
Voice cloning is a prominent feature in personalized speech interfaces. A neural vocal cloning system can mimic someone’s voice using just a few audio samples. Both speaker encoding and speaker adaptation are topics of research in the field of voice cloning. Speaker adaptation relies on fine-tuning a multi-speaker generative model, which involves training a separate model to infer a new speaker embedding used for speaker encoding. Both methods can achieve excellent performance, even with a small number of cloning audios, in terms of the speech’s naturalness and similarity to the original speaker. Speaker encoding approaches are more appropriate for low-resource deployment since they require significantly less memory and have a faster cloning time than speaker adaption, which can offer slightly greater naturalness and similarity. The main goal is to create a vocal cloning system that produces audio output with a Nepali accent or that sounds like Nepali. For the further advancement of TTS, the idea of transfer learning was effectively used to address several issues that were encountered in the development of this system, including the poor audio quality and the lack of available data.
arxiv情報
| 著者 | Manjil Karki,Pratik Shakya,Sandesh Acharya,Ravi Pandit,Dinesh Gothe | 
| 発行日 | 2024-08-19 16:15:09+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
