Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision

要約

並列データのリソースが少ないことは、発音単位と韻律パターンの両方を変換する必要があるアクセント変換 (AC) 問題の主要な課題です。
我々は、変換が意味トークンレベルでのみ実行され、ターゲットアクセントドメインの音声生成モデルを使用して、変換された意味トークンに基づいて音声が合成される、2段階の生成フレームワーク「convert-and-speak」を提案します。
デカップリング設計により、「話す」モジュールが大量のターゲットアクセント音声を使用できるようになり、「変換」モジュールに必要な並列データが軽減されます。
また、セマンティック トークンのブリッジによる変換により、テキスト トランスクリプションを含むデータの要件が緩和され、言語事前トレーニング テクノロジの使用が可能になり、並列アクセント音声データの必要性がさらに効率的に削減されます。
「話す」ことの複雑さと待ち時間を軽減するために、単一段階の AR 生成モデルは、高品質でありながら計算コストを削減できるように設計されています。
インド英語から一般的なアメリカ英語への変換に関する実験では、提案されたフレームワークが、同じ制約を受けないわずか 15 分の弱並列データで、アクセントの類似性、音声品質、話者の維持において最先端のパフォーマンスを達成することを示しています。
スピーカー。
さまざまなアクセント タイプを使用した広範な実験により、このフレームワークが高度な適応性を備えており、リソースの少ないデータを使用して他のアクセントに対応するために容易に拡張できることがわかります。
音声サンプルは、https://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with-minimumsupervision/ で入手できます。

要約(オリジナル)

Low resource of parallel data is the key challenge of accent conversion(AC) problem in which both the pronunciation units and prosody pattern need to be converted. We propose a two-stage generative framework ‘convert-and-speak’ in which the conversion is only operated on the semantic token level and the speech is synthesized conditioned on the converted semantic token with a speech generative model in target accent domain. The decoupling design enables the ‘speaking’ module to use massive amount of target accent speech and relieves the parallel data required for the ‘conversion’ module. Conversion with the bridge of semantic token also relieves the requirement for the data with text transcriptions and unlocks the usage of language pre-training technology to further efficiently reduce the need of parallel accent speech data. To reduce the complexity and latency of ‘speaking’, a single-stage AR generative model is designed to achieve good quality as well as lower computation cost. Experiments on Indian-English to general American-English conversion show that the proposed framework achieves state-of-the-art performance in accent similarity, speech quality, and speaker maintenance with only 15 minutes of weakly parallel data which is not constrained to the same speaker. Extensive experimentation with diverse accent types suggests that this framework possesses a high degree of adaptability, making it readily scalable to accommodate other accents with low-resource data. Audio samples are available at https://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with-minimumsupervision/.

arxiv情報

著者 Zhijun Jia,Huaying Xue,Xiulian Peng,Yan Lu
発行日 2024-08-19 15:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク