Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

要約

クロスリンガル音声合成のためのクロスリンガル ニューラル コーデック言語モデル VALL-E X を提案します。
具体的には、VALL-E を拡張し、多言語の条件付きコーデック言語モデルをトレーニングして、ソース言語の音声とターゲット言語のテキストの両方をプロンプトとして使用して、ターゲット言語の音声の音響トークン シーケンスを予測します。
VALL-E X は強力なインコンテキスト学習機能を継承しており、ゼロ ショットのクロスリンガル テキスト読み上げ合成およびゼロ ショットの音声読み上げ翻訳タスクに適用できます。
実験結果は、目に見えない話者の声、感情、および音響環境を維持しながら、ソース言語での 1 つの音声発話をプロンプトとしてターゲット言語で高品質の音声を生成できることを示しています。
さらに、VALL-E X は、外国語のアクセントの問題を効果的に軽減します。これは、言語 ID によって制御できます。
オーディオ サンプルは、\url{https://aka.ms/vallex} で入手できます。

要約(オリジナル)

We propose a cross-lingual neural codec language model, VALL-E X, for cross-lingual speech synthesis. Specifically, we extend VALL-E and train a multi-lingual conditional codec language model to predict the acoustic token sequences of the target language speech by using both the source language speech and the target language text as prompts. VALL-E X inherits strong in-context learning capabilities and can be applied for zero-shot cross-lingual text-to-speech synthesis and zero-shot speech-to-speech translation tasks. Experimental results show that it can generate high-quality speech in the target language via just one speech utterance in the source language as a prompt while preserving the unseen speaker’s voice, emotion, and acoustic environment. Moreover, VALL-E X effectively alleviates the foreign accent problems, which can be controlled by a language ID. Audio samples are available at \url{https://aka.ms/vallex}.

arxiv情報

著者 Ziqiang Zhang,Long Zhou,Chengyi Wang,Sanyuan Chen,Yu Wu,Shujie Liu,Zhuo Chen,Yanqing Liu,Huaming Wang,Jinyu Li,Lei He,Sheng Zhao,Furu Wei
発行日 2023-03-07 14:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク