Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion


音声変換 (VC) は、言語内容を保持しながら、人の声を変更して別の人の声に似せることを目的としています。
この研究では、両方の長所を生かした新しいメソッド \textit{Phoneme Hallucinator} を提案します。
Phoneme Hallucinator はワンショット VC モデルです。
これは、対象話者の短い音声 (例: 3 秒) に基づいて、多様で忠実度の高い対象話者音素を幻覚させるための新しいモデルを採用しています。
私たちのモデルはテキストフリーの Any-to-Any VC モデルであり、テキストの注釈を必要とせず、目に見えない話者への変換をサポートします。
客観的および主観的な評価により、\textit{Phoneme Hallucinator} は、明瞭度と話者の類似性の両方において既存の VC 手法よりも優れていることが示されています。


Voice conversion (VC) aims at altering a person’s voice to make it sound similar to the voice of another person while preserving linguistic content. Existing methods suffer from a dilemma between content intelligibility and speaker similarity; i.e., methods with higher intelligibility usually have a lower speaker similarity, while methods with higher speaker similarity usually require plenty of target speaker voice data to achieve high intelligibility. In this work, we propose a novel method \textit{Phoneme Hallucinator} that achieves the best of both worlds. Phoneme Hallucinator is a one-shot VC model; it adopts a novel model to hallucinate diversified and high-fidelity target speaker phonemes based just on a short target speaker voice (e.g. 3 seconds). The hallucinated phonemes are then exploited to perform neighbor-based voice conversion. Our model is a text-free, any-to-any VC model that requires no text annotations and supports conversion to any unseen speaker. Objective and subjective evaluations show that \textit{Phoneme Hallucinator} outperforms existing VC methods for both intelligibility and speaker similarity.


著者 Siyuan Shan,Yang Li,Amartya Banerjee,Junier B. Oliva
発行日 2023-12-30 22:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク