MERGE — A Bimodal Dataset for Static Music Emotion Recognition

要約

音楽感情認識 (MER) 分野は、特徴エンジニアリング、機械学習、深層学習の貢献により、近年着実な発展を遂げています。
また、状況はオーディオ中心のシステムから、オーディオと歌詞を組み合わせた二峰性アンサンブルへと移行しました。
しかし、公開されている大規模なバイモーダル データベースが深刻に不足しているため、バイモーダル オーディオ歌詞システムの開発と改善が妨げられています。
この記事では、半自動アプローチを使用して作成された 3 つの新しいオーディオ、歌詞、バイモーダル MER 研究データセット (総称して MERGE と呼ばれます) を提案します。
提案されたデータセットを包括的に評価し、ベンチマークのベースラインを確立するために、特徴エンジニアリング、機械学習、深層学習の方法論を使用して、モダリティごとにいくつかの実験を実施しました。
さらに、固定の train-validate-test 分割を提案および検証します。
得られた結果は、提案されたデータセットの実行可能性を確認し、ディープ ニューラル ネットワークを使用した二峰性分類の F1 スコア 79.21% という最良の全体結果を達成しました。

要約(オリジナル)

The Music Emotion Recognition (MER) field has seen steady developments in recent years, with contributions from feature engineering, machine learning, and deep learning. The landscape has also shifted from audio-centric systems to bimodal ensembles that combine audio and lyrics. However, a severe lack of public and sizeable bimodal databases has hampered the development and improvement of bimodal audio-lyrics systems. This article proposes three new audio, lyrics, and bimodal MER research datasets, collectively called MERGE, created using a semi-automatic approach. To comprehensively assess the proposed datasets and establish a baseline for benchmarking, we conducted several experiments for each modality, using feature engineering, machine learning, and deep learning methodologies. In addition, we propose and validate fixed train-validate-test splits. The obtained results confirm the viability of the proposed datasets, achieving the best overall result of 79.21% F1-score for bimodal classification using a deep neural network.

arxiv情報

著者 Pedro Lima Louro,Hugo Redinho,Ricardo Santos,Ricardo Malheiro,Renato Panda,Rui Pedro Paiva
発行日 2024-07-08 16:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM, cs.SD パーマリンク