Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約

音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット音声に変換します。
ただし、ソーススピーカーからの音色情報は、本質的にコンテンツ表現に埋め込まれており、大幅な音色の漏れを引き起こし、ターゲットスピーカーとの類似性を減らします。
これに対処するために、コンテンツ抽出器に残留ブロックを導入します。
残差ブロックは、2つの重み付けされた分岐で構成されています。1)ユニバーサルセマンティック辞書ベースのコンテンツ機能の再発現(CFR)モジュールは、音色のないコンテンツ表現を提供します。
2)元のコンテンツレイヤーへの接続をスキップし、補完的な細粒情報を提供します。
CFRモジュールでは、ユニバーサルセマンティック辞書の各辞書エントリは、複数のスピーカーからの音声を使用して統計的に計算された音素クラスを表し、安定したスピーカーに依存しないセマンティックセットを作成します。
各コンテンツフレームを、対応する音素事後の重みを重みとして使用して辞書エントリの加重線形組み合わせとして表現することにより、CFRメソッドを導入して、音色のないコンテンツ表現を取得します。
さまざまなVCフレームワークにわたる広範な実験は、私たちのアプローチが音色の漏れを効果的に軽減し、ターゲットスピーカーとの類似性を大幅に改善することを示しています。

要約(オリジナル)

Voice conversion (VC) transforms source speech into a target voice by preserving the content. However, timbre information from the source speaker is inherently embedded in the content representations, causing significant timbre leakage and reducing similarity to the target speaker. To address this, we introduce a residual block to a content extractor. The residual block consists of two weighted branches: 1) universal semantic dictionary based Content Feature Re-expression (CFR) module, supplying timbre-free content representation. 2) skip connection to the original content layer, providing complementary fine-grained information. In the CFR module, each dictionary entry in the universal semantic dictionary represents a phoneme class, computed statistically using speech from multiple speakers, creating a stable, speaker-independent semantic set. We introduce a CFR method to obtain timbre-free content representations by expressing each content frame as a weighted linear combination of dictionary entries using corresponding phoneme posteriors as weights. Extensive experiments across various VC frameworks demonstrate that our approach effectively mitigates timbre leakage and significantly improves similarity to the target speaker.

arxiv情報

著者 Na Li,Chuke Wang,Yu Gu,Zhifeng Li
発行日 2025-04-11 13:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク