WikiMuTe: A web-sourced dataset of semantic descriptions for music audio

要約

自由形式のテキストと音楽を照合するマルチモーダル深層学習技術は、音楽情報検索 (MIR) の分野で有望な結果を示しています。
これまでの研究は多くの場合、大規模な独自データに基づいていますが、公開されているデータセットは少なく、サイズも小さいです。
この研究では、音楽の豊富な意味論的記述を含む新しいオープン データセットである WikiMuTe を紹介します。
データは、音楽作品をカバーするウィキペディアの豊富な記事カタログから取得されています。
専用のテキストマイニング パイプラインを使用して、ジャンル、スタイル、ムード、楽器編成、テンポなど、音楽コンテンツに関連する幅広いトピックをカバーする長い形式と短い形式の両方の説明を抽出します。
このデータの使用法を示すために、テキストとオーディオ表現を共同学習し、クロスモーダル検索を実行するモデルをトレーニングします。
このモデルは、タグベースの音楽検索と音楽の自動タグ付けという 2 つのタスクで評価されます。
結果は、私たちのアプローチは複数のタスクで最先端のパフォーマンスを発揮しますが、それでもトレーニングに使用されるデータに応じてパフォーマンスの違いが観察されることを示しています。

要約(オリジナル)

Multi-modal deep learning techniques for matching free-form text with music have shown promising results in the field of Music Information Retrieval (MIR). Prior work is often based on large proprietary data while publicly available datasets are few and small in size. In this study, we present WikiMuTe, a new and open dataset containing rich semantic descriptions of music. The data is sourced from Wikipedia’s rich catalogue of articles covering musical works. Using a dedicated text-mining pipeline, we extract both long and short-form descriptions covering a wide range of topics related to music content such as genre, style, mood, instrumentation, and tempo. To show the use of this data, we train a model that jointly learns text and audio representations and performs cross-modal retrieval. The model is evaluated on two tasks: tag-based music retrieval and music auto-tagging. The results show that while our approach has state-of-the-art performance on multiple tasks, but still observe a difference in performance depending on the data used for training.

arxiv情報

著者 Benno Weck,Holger Kirchhoff,Peter Grosche,Xavier Serra
発行日 2023-12-14 18:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS パーマリンク