要約
テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備えた大規模に公開されている音楽データセットが不足しているため、大きな障害に直面しています。
これに対処するために、音楽関連の質問に答え、音楽ファイルのキャプションを生成できる Music Understanding LLaMA (MU-LLaMA) を提案します。
私たちのモデルは、事前トレーニングされた MERT モデルからのオーディオ表現を利用して、音楽の特徴を抽出します。
ただし、公的にアクセス可能な既存の音声質問応答データセットには、自由形式の音楽質問応答に必要な深さが欠けているため、MU-LLaMA モデルのトレーニングに適したデータセットを取得することは依然として困難です。
このギャップを埋めるために、既存の音声キャプション データセットから質問と回答のペアを生成する方法論を提示し、自由形式の音楽関連の質問に答えるために設計された MusicQA データセットを紹介します。
実験では、設計された MusicQA データセットでトレーニングされた、提案された MU-LLaMA モデルが、音楽の質問応答と音楽キャプションの生成の両方において、さまざまな指標にわたって優れたパフォーマンスを達成し、両方の分野で現在の最先端 (SOTA) モデルを上回るパフォーマンスを示していることが実証されています。
そして、T2M-Gen 研究分野に有望な進歩をもたらします。
要約(オリジナル)
Text-to-music generation (T2M-Gen) faces a major obstacle due to the scarcity of large-scale publicly available music datasets with natural language captions. To address this, we propose the Music Understanding LLaMA (MU-LLaMA), capable of answering music-related questions and generating captions for music files. Our model utilizes audio representations from a pretrained MERT model to extract music features. However, obtaining a suitable dataset for training the MU-LLaMA model remains challenging, as existing publicly accessible audio question answering datasets lack the necessary depth for open-ended music question answering. To fill this gap, we present a methodology for generating question-answer pairs from existing audio captioning datasets and introduce the MusicQA Dataset designed for answering open-ended music-related questions. The experiments demonstrate that the proposed MU-LLaMA model, trained on our designed MusicQA dataset, achieves outstanding performance in both music question answering and music caption generation across various metrics, outperforming current state-of-the-art (SOTA) models in both fields and offering a promising advancement in the T2M-Gen research field.
arxiv情報
著者 | Shansong Liu,Atin Sakkeer Hussain,Chenshuo Sun,Ying Shan |
発行日 | 2023-08-22 08:43:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google