要約
汎用音楽の音声表現の学習に焦点を当てたものを含む音楽の大規模な学習モデルは、多くの場合、高性能を達成するために実質的なトレーニングデータを必要とすると想定されています。
本当なら、これは、過小評価されている音楽の伝統、非人気のジャンル、パーソナライズされた音楽の作成とリスニングなど、オーディオデータや注釈が不足しているシナリオで課題をもたらすでしょう。
これらのモデルが限られたデータシナリオでどのように動作するかを理解することは、それらに取り組むための技術を開発するために重要です。
この作業では、限られたデータ学習体制の下でいくつかの音楽オーディオ表現モデルの動作を調査します。
さまざまなアーキテクチャ、トレーニングパラダイム、入力期間を備えた音楽モデルを検討し、5〜8,000分の範囲のデータコレクションでトレーニングします。
さまざまな音楽情報検索タスクで学習した表現を評価し、それらの堅牢性をノイズに分析します。
特定の条件下では、限られたデータやランダムモデルからの表現が大規模モデルのモデルからの表現でさえも機能することを示していますが、手作りの機能は、いくつかのタスクで学習したすべての表現を上回ることができます。
要約(オリジナル)
Large deep-learning models for music, including those focused on learning general-purpose music audio representations, are often assumed to require substantial training data to achieve high performance. If true, this would pose challenges in scenarios where audio data or annotations are scarce, such as for underrepresented music traditions, non-popular genres, and personalized music creation and listening. Understanding how these models behave in limited-data scenarios could be crucial for developing techniques to tackle them. In this work, we investigate the behavior of several music audio representation models under limited-data learning regimes. We consider music models with various architectures, training paradigms, and input durations, and train them on data collections ranging from 5 to 8,000 minutes long. We evaluate the learned representations on various music information retrieval tasks and analyze their robustness to noise. We show that, under certain conditions, representations from limited-data and even random models perform comparably to ones from large-dataset models, though handcrafted features outperform all learned representations in some tasks.
arxiv情報
著者 | Christos Plachouras,Emmanouil Benetos,Johan Pauwels |
発行日 | 2025-05-09 13:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google