OpenVoice: Versatile Instant Voice Cloning

要約

OpenVoice を紹介します。OpenVoice は、基準話者の音声を複製し、複数の言語で音声を生成するために、基準話者の短いオーディオ クリップだけを必要とする多用途の音声クローン作成アプローチです。
OpenVoice は、この分野における次の未解決の課題に対処する上で大きな進歩をもたらします。 1) 柔軟な音声スタイル制御。
OpenVoice を使用すると、リファレンス スピーカーの音色を複製するだけでなく、感情、アクセント、リズム、ポーズ、イントネーションなどの音声スタイルをきめ細かく制御できます。
音声スタイルは、基準話者のスタイルから直接コピーされたり、基準話者のスタイルによって制限されたりするものではありません。
以前のアプローチには、クローン作成後に音声スタイルを柔軟に操作する機能がありませんでした。
2) ゼロショットのクロスリンガル音声クローン作成。
OpenVoice は、大規模話者トレーニング セットに含まれていない言語のゼロショットクロスリンガル音声クローン作成を実現します。
通常、すべての言語に対して広範な大規模話者多言語 (MSML) データセットを必要とする以前のアプローチとは異なり、OpenVoice は、その言語の大規模話者トレーニング データを必要とせずに、音声を新しい言語にクローン作成できます。
OpenVoice は計算効率も高く、パフォーマンスがさらに劣る市販の API よりもコストが数十分の 1 です。
この分野でのさらなる研究を促進するために、ソース コードとトレーニングされたモデルを一般公開しました。
デモ Web サイトでは定性的な結果も提供しています。
一般公開に先立って、OpenVoice の内部バージョンは、2023 年 5 月から 10 月にかけて世界中のユーザーによって数千万回使用され、MyShell のバックエンドとして機能しました。

要約(オリジナル)

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.

arxiv情報

著者 Zengyi Qin,Wenliang Zhao,Xumin Yu,Xin Sun
発行日 2024-01-02 17:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク