要約
音楽感情の複雑な性質は、特に単一のオーディオエンコーダー、感情分類器、または評価メトリックに依存する場合、認識と生成の両方に固有のバイアスをもたらします。
この作業では、リファレンスフリー評価メトリックであるFrechet Audio Distance(FAD)とともに、多様なオーディオエンコーダーを採用して、音楽感情認識(MER)と感情的な音楽生成(EMG)に関する研究を実施しています。
私たちの研究は、MERのベンチマーク評価から始まり、単一のオーディオエンコーダーを使用することの制限と、異なる測定で観察される格差を強調しています。
次に、複数のエンコーダーから派生したFADを使用してMERパフォーマンスを評価することを提案し、音楽感情のより客観的な尺度を提供します。
さらに、生成された音楽感情の変動性と顕著性の両方を改善し、それによってそのリアリズムを高めるために設計された強化されたEMGアプローチを導入します。
さらに、EMGモデルを2つのベースラインモデルと比較して、実際の音楽と合成音楽で伝えられる感情間のリアリズムの違いを調査します。
実験結果は、MERとEMGの両方の感情バイアスの問題を強調し、FADおよび多様なオーディオエンコーダーを使用して音楽の感情をより客観的かつ効果的に評価する可能性を示しています。
要約(オリジナル)
The complex nature of musical emotion introduces inherent bias in both recognition and generation, particularly when relying on a single audio encoder, emotion classifier, or evaluation metric. In this work, we conduct a study on Music Emotion Recognition (MER) and Emotional Music Generation (EMG), employing diverse audio encoders alongside Frechet Audio Distance (FAD), a reference-free evaluation metric. Our study begins with a benchmark evaluation of MER, highlighting the limitations of using a single audio encoder and the disparities observed across different measurements. We then propose assessing MER performance using FAD derived from multiple encoders to provide a more objective measure of musical emotion. Furthermore, we introduce an enhanced EMG approach designed to improve both the variability and prominence of generated musical emotion, thereby enhancing its realism. Additionally, we investigate the differences in realism between the emotions conveyed in real and synthetic music, comparing our EMG model against two baseline models. Experimental results underscore the issue of emotion bias in both MER and EMG and demonstrate the potential of using FAD and diverse audio encoders to evaluate musical emotion more objectively and effectively.
arxiv情報
著者 | Yuanchao Li,Azalea Gui,Dimitra Emmanouilidou,Hannes Gamper |
発行日 | 2025-04-30 13:21:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google