要約
大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて計り知れない可能性を示していますが、テキスト領域と音楽領域の収束についてはまだ十分に研究されていません。
このギャップに対処するために、音楽キャプション生成と音楽関連のクエリ応答のための新しいシステムである MusiLingo を紹介します。
MusiLingo は、単一のプロジェクション レイヤーを使用して、事前トレーニングされた凍結音楽オーディオ モデル MERT からの音楽表現を凍結 LLM と位置合わせし、音楽オーディオとテキスト コンテキストの間のギャップを橋渡しします。
広範な音楽キャプション データセットでトレーニングし、指導データで微調整します。
高品質の音楽 Q&A データセットが不足しているため、自由形式の音楽の問い合わせに合わせて、MusicCaps データセットのキャプションから MusicInstruct (MI) データセットを作成しました。
実証的評価により、音楽キャプションの生成と音楽関連の Q&A ペアの作成において、競合他社に匹敵するパフォーマンスが実証されています。
導入されたデータセットにより、以前のデータセットを超える顕著な進歩が可能になります。
要約(オリジナル)
Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains not well-explored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with a frozen LLM, bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q&A datasets, we created the MusicInstruct (MI) dataset from captions in the MusicCaps datasets, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs. Our introduced dataset enables notable advancements beyond previous ones.
arxiv情報
著者 | Zihao Deng,Yinghao Ma,Yudong Liu,Rongchen Guo,Ge Zhang,Wenhu Chen,Wenhao Huang,Emmanouil Benetos |
発行日 | 2024-04-02 13:35:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google