The Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan

要約

声の音色とは、人間の聴覚によって認識されているように、他の人と区別する人の声のユニークな品質または性格を指します。
Voice Timbre属性検出(VTAD)2025 Challengeは、Voice Timbre属性を比較方法で説明することに焦点を当てています。
この課題では、声の音色の人間の印象は、明るい、粗い、柔らかい、磁気などを含む一連の感覚記述子で言葉で表現されています。
音色は、特定の記述子ディメンション内の強度の2つの声の比較から説明されています。
VTAD 2025チャレンジは5月に始まり、2025年10月に中国のゼンジャンで開催されたNCMMSC2025会議で特別な提案で頂点に達します。

要約(オリジナル)

Voice timbre refers to the unique quality or character of a person’s voice that distinguishes it from others as perceived by human hearing. The Voice Timbre Attribute Detection (VtaD) 2025 challenge focuses on explaining the voice timbre attribute in a comparative manner. In this challenge, the human impression of voice timbre is verbalized with a set of sensory descriptors, including bright, coarse, soft, magnetic, and so on. The timbre is explained from the comparison between two voices in their intensity within a specific descriptor dimension. The VtaD 2025 challenge starts in May and culminates in a special proposal at the NCMMSC2025 conference in October 2025 in Zhenjiang, China.

arxiv情報

著者 Zhengyan Sheng,Jinghao He,Liping Chen,Kong Aik Lee,Zhen-Hua Ling
発行日 2025-05-14 13:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク