要約
感情音声変換は、非感情要素を保持しながら、特定の感情に従って音声を操作することを目的としています。
既存のアプローチでは、きめ細かい感情的属性をうまく表現できません。
この論文では、音声変換にインスタンスごとの感情的知識を活用する、注意ベースの対話型解消ネットワーク (AINN) を提案します。
ネットワークを効果的にトレーニングするために 2 段階のパイプラインを導入します。ステージ I では、音声間の対照学習を利用して、きめの細かい感情をモデル化し、音声内のもつれを解く学習を利用して、感情とコンテンツをより適切に分離します。
ステージ II では、マルチビューの一貫性メカニズムを使用して変換を正規化することを提案します。
このテクニックは、きめ細かい感情を伝え、スピーチの内容を維持するのに役立ちます。
広範な実験により、当社の AINN は客観的指標と主観的指標の両方で最先端の指標を上回っていることが示されています。
要約(オリジナル)
Emotional Voice Conversion aims to manipulate a speech according to a given emotion while preserving non-emotion components. Existing approaches cannot well express fine-grained emotional attributes. In this paper, we propose an Attention-based Interactive diseNtangling Network (AINN) that leverages instance-wise emotional knowledge for voice conversion. We introduce a two-stage pipeline to effectively train our network: Stage I utilizes inter-speech contrastive learning to model fine-grained emotion and intra-speech disentanglement learning to better separate emotion and content. In Stage II, we propose to regularize the conversion with a multi-view consistency mechanism. This technique helps us transfer fine-grained emotion and maintain speech content. Extensive experiments show that our AINN outperforms state-of-the-arts in both objective and subjective metrics.
arxiv情報
| 著者 | Yun Chen,Lingxiao Yang,Qi Chen,Jian-Huang Lai,Xiaohua Xie |
| 発行日 | 2023-12-29 08:06:45+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google