Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion

要約

音声変換 (VC) は、言語内容を保持しながら、人の声を変更して別の人の声に似せることを目的としています。
既存の方法は、内容のわかりやすさと話者の類似性の間のジレンマに悩まされています。
つまり、明瞭度が高い方法は話者類似度が低いのが通常ですが、話者類似度が高い方法は通常、高い明瞭度を達成するためにターゲット話者の音声データを大量に必要とします。
この研究では、両方の長所を生かした新しいメソッド \textit{Phoneme Hallucinator} を提案します。
Phoneme Hallucinator はワンショット VC モデルです。
これは、対象話者の短い音声 (例: 3 秒) に基づいて、多様で忠実度の高い対象話者音素を幻覚させるための新しいモデルを採用しています。
幻覚音素は、近隣ベースの音声変換を実行するために利用されます。
私たちのモデルはテキストフリーの Any-to-Any VC モデルであり、テキストの注釈を必要とせず、目に見えない話者への変換をサポートします。
客観的および主観的な評価により、\textit{Phoneme Hallucinator} は、明瞭度と話者の類似性の両方において既存の VC 手法よりも優れていることが示されています。

要約(オリジナル)

Voice conversion (VC) aims at altering a person’s voice to make it sound similar to the voice of another person while preserving linguistic content. Existing methods suffer from a dilemma between content intelligibility and speaker similarity; i.e., methods with higher intelligibility usually have a lower speaker similarity, while methods with higher speaker similarity usually require plenty of target speaker voice data to achieve high intelligibility. In this work, we propose a novel method \textit{Phoneme Hallucinator} that achieves the best of both worlds. Phoneme Hallucinator is a one-shot VC model; it adopts a novel model to hallucinate diversified and high-fidelity target speaker phonemes based just on a short target speaker voice (e.g. 3 seconds). The hallucinated phonemes are then exploited to perform neighbor-based voice conversion. Our model is a text-free, any-to-any VC model that requires no text annotations and supports conversion to any unseen speaker. Objective and subjective evaluations show that \textit{Phoneme Hallucinator} outperforms existing VC methods for both intelligibility and speaker similarity.

arxiv情報

著者 Siyuan Shan,Yang Li,Amartya Banerjee,Junier B. Oliva
発行日 2023-12-30 22:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク