要約
共通のデータセットに基づいてさまざまな音声変換 (VC) システムを比較して理解することを目的とした、年に 2 回の科学イベントである音声変換チャレンジ (VCC) シリーズの最新版を紹介します。
今年は歌声変換(SVC)に焦点を移し、このチャレンジを歌声変換チャレンジ(SVCC)と名付けました。
新しいデータベースは、ドメイン内 SVC とクロスドメイン SVC という 2 つのタスク用に構築されました。
チャレンジは 2 か月間実施され、ベースライン 2 件を含む合計 26 件の提出がありました。
大規模なクラウドソースによるリスニング テストを通じて、両方のタスクにおいて、人間レベルの自然さは最上位のシステムによって達成されたものの、どのチームもターゲット話者ほど高い類似性スコアを取得できなかったことが観察されました。
また、予想どおり、クロスドメイン SVC は、特に類似性の面でドメイン内 SVC よりも困難です。
また、既存の客観的な測定値が知覚パフォーマンスを予測できるかどうかも調査しましたが、有意な相関関係に達することができる測定値はそのうちのわずかしかないことがわかりました。
要約(オリジナル)
We present the latest iteration of the voice conversion challenge (VCC) series, a bi-annual scientific event aiming to compare and understand different voice conversion (VC) systems based on a common dataset. This year we shifted our focus to singing voice conversion (SVC), thus named the challenge the Singing Voice Conversion Challenge (SVCC). A new database was constructed for two tasks, namely in-domain and cross-domain SVC. The challenge was run for two months, and in total we received 26 submissions, including 2 baselines. Through a large-scale crowd-sourced listening test, we observed that for both tasks, although human-level naturalness was achieved by the top system, no team was able to obtain a similarity score as high as the target speakers. Also, as expected, cross-domain SVC is harder than in-domain SVC, especially in the similarity aspect. We also investigated whether existing objective measurements were able to predict perceptual performance, and found that only few of them could reach a significant correlation.
arxiv情報
著者 | Wen-Chin Huang,Lester Phillip Violeta,Songxiang Liu,Jiatong Shi,Yusuke Yasuda,Tomoki Toda |
発行日 | 2023-06-26 05:04:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google