MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

要約

音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽領域でも採用が進んでいる。ユーザがテキストを介して問い合わせを行い、与えられた音声入力に関する情報を得ることを可能にすることで、これらのモデルは、言語ベースのインターフェースを介した様々な音楽理解タスクを可能にする可能性を秘めている。しかし、その評価には大きな課題があり、現在の手法で音楽関連入力を正しく解釈する能力を効果的に評価する方法は不明なままである。そこで、音声に特化したマルチモーダル言語モデルの音楽理解能力を評価するためのベンチマークであるMuChoMusicを紹介する。MuChoMusicは1,187の多肢選択問題で構成され、全て人間のアノテーターによって検証され、2つの一般公開されている音楽データセットから取得した644の音楽トラックで、様々なジャンルをカバーしている。このベンチマークで出題される問題は、基本的な音楽概念と文化的・機能的な文脈との関連性をカバーするいくつかの次元にわたって、知識と推論能力を評価するように作られています。このベンチマークから得られる総合的な分析を通じて、5つのオープンソースモデルを評価し、言語モダリティへの過度の依存を含むいくつかの落とし穴を特定し、より良いマルチモーダル統合の必要性を指摘する。データとコードはオープンソースです。

要約(オリジナル)

Multimodal models that jointly process audio and language hold great promise in audio understanding and are increasingly being adopted in the music domain. By allowing users to query via text and obtain information about a given audio input, these models have the potential to enable a variety of music understanding tasks via language-based interfaces. However, their evaluation poses considerable challenges, and it remains unclear how to effectively assess their ability to correctly interpret music-related inputs with current methods. Motivated by this, we introduce MuChoMusic, a benchmark for evaluating music understanding in multimodal language models focused on audio. MuChoMusic comprises 1,187 multiple-choice questions, all validated by human annotators, on 644 music tracks sourced from two publicly available music datasets, and covering a wide variety of genres. Questions in the benchmark are crafted to assess knowledge and reasoning abilities across several dimensions that cover fundamental musical concepts and their relation to cultural and functional contexts. Through the holistic analysis afforded by the benchmark, we evaluate five open-source models and identify several pitfalls, including an over-reliance on the language modality, pointing to a need for better multimodal integration. Data and code are open-sourced.

arxiv情報

著者 Benno Weck,Ilaria Manco,Emmanouil Benetos,Elio Quinton,George Fazekas,Dmitry Bogdanov
発行日 2024-08-02 15:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク