KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation

要約

生成されたオーディオ信号の評価に広く採用されていますが、FR \ ‘Echetオーディオ距離(FAD)は、ガウスの仮定への依存、サンプルサイズへの感度、高い計算の複雑さなど、大きな制限に苦しんでいます。
別の方法として、最大平均矛盾(MMD)に基づいて、斬新で分布のない、偏り、計算効率の高いメトリックであるカーネルオーディオ距離(KAD)を導入します。
分析と実証的検証を通じて、KADの利点を示します。(1)サンプルサイズが小さくなるより速い収束、限られたデータで信頼できる評価を可能にします。
(2)スケーラブルなGPU加速度を備えた計算コストの削減。
(3)人間の知覚的判断とのより強い整合。
高度な埋め込みと特徴的なカーネルを活用することにより、KADは実際のオーディオと生成されたオーディオの微妙な違いをキャプチャします。
KADK ToolkitでオープンソースをかけたKADは、生成オーディオモデルを評価するための効率的で信頼性が高く、知覚的に整合したベンチマークを提供します。

要約(オリジナル)

Although being widely adopted for evaluating generated audio signals, the Fr\’echet Audio Distance (FAD) suffers from significant limitations, including reliance on Gaussian assumptions, sensitivity to sample size, and high computational complexity. As an alternative, we introduce the Kernel Audio Distance (KAD), a novel, distribution-free, unbiased, and computationally efficient metric based on Maximum Mean Discrepancy (MMD). Through analysis and empirical validation, we demonstrate KAD’s advantages: (1) faster convergence with smaller sample sizes, enabling reliable evaluation with limited data; (2) lower computational cost, with scalable GPU acceleration; and (3) stronger alignment with human perceptual judgments. By leveraging advanced embeddings and characteristic kernels, KAD captures nuanced differences between real and generated audio. Open-sourced in the kadtk toolkit, KAD provides an efficient, reliable, and perceptually aligned benchmark for evaluating generative audio models.

arxiv情報

著者 Yoonjin Chung,Pilsun Eu,Junwon Lee,Keunwoo Choi,Juhan Nam,Ben Sangbae Chon
発行日 2025-02-21 17:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク