Towards General-Purpose Text-Instruction-Guided Voice Conversion

要約

この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声で話す」などのテキスト指示に基づいて、新しい音声変換 (VC) モデルを紹介します。
変換された音声の属性を決定するために参照発話に依存する従来の方法とは異なり、私たちのモデルは音声変換に汎用性と具体性を追加します。
提案された VC モデルは、一連の離散コードを処理し、変換された音声のコード シーケンスを生成するニューラル コーデック言語モデルです。
テキストの指示をスタイル プロンプトとして利用し、特定の音声の韻律と感情情報を変更します。
ソース音声のさまざまな側面を処理するために韻律エンコーダーやコンテンツ エンコーダーなどの別個のエンコーダーの採用に依存することが多かった以前のアプローチとは対照的に、私たちのモデルは音声のさまざまな情報をエンドツーエンドの方法で処理します。
実験では、指示を理解し、妥当な結果を提供するというモデルの優れた機能が実証されました。

要約(オリジナル)

This paper introduces a novel voice conversion (VC) model, guided by text instructions such as ‘articulate slowly with a deep tone’ or ‘speak in a cheerful boyish voice’. Unlike traditional methods that rely on reference utterances to determine the attributes of the converted speech, our model adds versatility and specificity to voice conversion. The proposed VC model is a neural codec language model which processes a sequence of discrete codes, resulting in the code sequence of converted speech. It utilizes text instructions as style prompts to modify the prosody and emotional information of the given speech. In contrast to previous approaches, which often rely on employing separate encoders like prosody and content encoders to handle different aspects of the source speech, our model handles various information of speech in an end-to-end manner. Experiments have demonstrated the impressive capabilities of our model in comprehending instructions and delivering reasonable results.

arxiv情報

著者 Chun-Yi Kuan,Chen An Li,Tsu-Yuan Hsu,Tse-Yang Lin,Ho-Lam Chung,Kai-Wei Chang,Shuo-yiin Chang,Hung-yi Lee
発行日 2023-09-25 17:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク