MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

要約

急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解とテキストによる記述のパフォーマンスを均一に評価するための新しいベンチマークが緊急に必要です。
しかし、音楽情報検索 (MIR) アルゴリズムと人間の理解との間の意味論的なギャップ、専門家と一般の間の相違、および注釈の精度の低さのため、既存の音楽記述データセットはベンチマークとして機能できません。
この目的を達成するために、音楽の理解と記述におけるマルチモーダル LLM のパフォーマンスを評価するように設計された、中国語口語言語による初のオープンソース音楽記述ベンチマークである MuChin を紹介します。
私たちは、革新的な複数人による多段階の保証方法を採用した Caichong Music Annotation Platform (CaiMAP) を確立し、注釈の精度と一般的なセマンティクスとの整合性を確保するためにアマチュアと専門家の両方を採用しました。
この手法を利用して、多次元で高精度の音楽アノテーションを備えたデータセットである Caichong Music Dataset (CaiMD) を構築し、MuChin のテスト セットとして機能する高品質のエントリを 1,000 個厳選しました。
MuChin に基づいて、音楽記述の観点からプロとアマチュア間の差異を分析し、LLM の微調整における注釈付きデータの有効性を実証しました。
最終的に、私たちは MuChin を採用して、音楽の口語的な説明を提供する能力に関して既存の音楽理解モデルを評価しました。
ベンチマークに関連するすべてのデータとスコアリング用のコードはオープンソース化されています。

要約(オリジナル)

The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark and the code for scoring have been open-sourced.

arxiv情報

著者 Zihao Wang,Shuyu Li,Tao Zhang,Qi Wang,Pengfei Yu,Jinyang Luo,Yan Liu,Ming Xi,Kejun Zhang
発行日 2024-04-02 16:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 パーマリンク