要約
オーディオ間 (A2A) スタイル転送の問題には、ソース オーディオのコンテンツ関連属性を保持しながら、ソース オーディオのスタイル特徴をターゲット オーディオのスタイル特徴に置き換えることが含まれます。
この論文では、ゼロショット感情スタイル転送 (ZEST) と呼ばれる効率的なアプローチを提案します。これは、話者と音声の内容を保持しながら、特定のソース オーディオに存在する感情コンテンツをターゲット オーディオに埋め込まれた感情コンテンツに転送することを可能にします。
ソースから。
提案されたシステムは、音声を意味論的なトークン、話者表現、および感情の埋め込みに分解することに基づいて構築されています。
これらの要素を使用して、与えられた音声信号のピッチ輪郭を再構築し、音声信号を再構築するデコーダをトレーニングするためのフレームワークを提案します。
モデルは、自己監視ベースの再構築損失を使用してトレーニングされます。
変換中、感情の埋め込みのみがターゲット オーディオから導出され、残りの要素はソース オーディオから導出されます。
私たちの実験では、ソースまたはターゲットオーディオからの並列トレーニングデータやラベルを使用しなくても、客観的および主観的な品質評価を使用して、提案された ZEST モデルのゼロショット感情伝達機能を説明できることを示しました。
要約(オリジナル)
The problem of audio-to-audio (A2A) style transfer involves replacing the style features of the source audio with those from the target audio while preserving the content related attributes of the source audio. In this paper, we propose an efficient approach, termed as Zero-shot Emotion Style Transfer (ZEST), that allows the transfer of emotional content present in the given source audio with the one embedded in the target audio while retaining the speaker and speech content from the source. The proposed system builds upon decomposing speech into semantic tokens, speaker representations and emotion embeddings. Using these factors, we propose a framework to reconstruct the pitch contour of the given speech signal and train a decoder that reconstructs the speech signal. The model is trained using a self-supervision based reconstruction loss. During conversion, the emotion embedding is alone derived from the target audio, while rest of the factors are derived from the source audio. In our experiments, we show that, even without using parallel training data or labels from the source or target audio, we illustrate zero shot emotion transfer capabilities of the proposed ZEST model using objective and subjective quality evaluations.
arxiv情報
著者 | Soumya Dutta,Sriram Ganapathy |
発行日 | 2024-01-09 12:10:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google