The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation


音楽と言語のモデルを評価するために設計された、高品質のオーディオとキャプションのペアの新しいクラウドソース コーパスである Song Describer データセット (SDD) を紹介します。
このデータセットは、706 曲の音楽録音について人が書いた 1.1k の自然言語記述で構成されており、すべて一般にアクセス可能であり、クリエイティブ コモン ライセンスに基づいて公開されています。
データセットの使用法を紹介するために、3 つの主要な音楽と言語のタスク (音楽キャプション、テキストから音楽への生成、音楽言語の取得) に関して人気のあるモデルのベンチマークを行います。
私たちの実験は、データセット間の評価の重要性を強調し、研究者が SDD を使用してモデルのパフォーマンスについてより広範な理解を得る方法についての洞察を提供します。


We introduce the Song Describer dataset (SDD), a new crowdsourced corpus of high-quality audio-caption pairs, designed for the evaluation of music-and-language models. The dataset consists of 1.1k human-written natural language descriptions of 706 music recordings, all publicly accessible and released under Creative Common licenses. To showcase the use of our dataset, we benchmark popular models on three key music-and-language tasks (music captioning, text-to-music generation and music-language retrieval). Our experiments highlight the importance of cross-dataset evaluation and offer insights into how researchers can use SDD to gain a broader understanding of model performance.


著者 Ilaria Manco,Benno Weck,SeungHeon Doh,Minz Won,Yixiao Zhang,Dmitry Bodganov,Yusong Wu,Ke Chen,Philip Tovstogan,Emmanouil Benetos,Elio Quinton,György Fazekas,Juhan Nam
発行日 2023-11-18 14:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク