Towards Unified Music Emotion Recognition across Dimensional and Categorical Models

要約

音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがカテゴリー(例えば、幸せ、悲しい)対寸法ラベル(例えば、価電子覚醒)を含む感情表現に関してデータセット全体で不均一になる可能性があるという事実に由来しています。
このペーパーでは、これら2つのタイプのラベルを組み合わせた統一されたマルチタスク学習フレームワークを紹介し、したがって、複数のデータセットでトレーニングできるようにします。
このフレームワークは、音楽の特徴(つまり、キーとコード)とMERT埋め込みを組み合わせた効果的な入力表現を使用します。
さらに、知識の蒸留が採用されており、個々のデータセットでトレーニングされた教師モデルの知識を学生モデルに転送し、複数のタスクにわたって一般化する能力を高めます。
提案されたフレームワークを検証するために、MTG-Jamendo、Deam、PMEMO、Emomusicなど、さまざまなデータセットで広範な実験を実施しました。
実験結果によると、音楽の特徴、マルチタスク学習、知識の蒸留を含めると、パフォーマンスが大幅に向上します。
特に、私たちのモデルは、MTG-Jamendo DatasetでのMediaVal 2021競争からの最高のパフォーマンスモデルを含む、最先端のモデルよりも優れています。
私たちの仕事は、1つの統一されたフレームワークでカテゴリとディメンションの感情ラベルの組み合わせを許可し、データセット全体でトレーニングを可能にすることにより、MERに大きく貢献します。

要約(オリジナル)

One of the most significant challenges in Music Emotion Recognition (MER) comes from the fact that emotion labels can be heterogeneous across datasets with regard to the emotion representation, including categorical (e.g., happy, sad) versus dimensional labels (e.g., valence-arousal). In this paper, we present a unified multitask learning framework that combines these two types of labels and is thus able to be trained on multiple datasets. This framework uses an effective input representation that combines musical features (i.e., key and chords) and MERT embeddings. Moreover, knowledge distillation is employed to transfer the knowledge of teacher models trained on individual datasets to a student model, enhancing its ability to generalize across multiple tasks. To validate our proposed framework, we conducted extensive experiments on a variety of datasets, including MTG-Jamendo, DEAM, PMEmo, and EmoMusic. According to our experimental results, the inclusion of musical features, multitask learning, and knowledge distillation significantly enhances performance. In particular, our model outperforms the state-of-the-art models, including the best-performing model from the MediaEval 2021 competition on the MTG-Jamendo dataset. Our work makes a significant contribution to MER by allowing the combination of categorical and dimensional emotion labels in one unified framework, thus enabling training across datasets.

arxiv情報

著者 Jaeyong Kang,Dorien Herremans
発行日 2025-04-11 12:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク