Refining music sample identification with a self-supervised graph neural network

要約

自動サンプル識別(ASID)、新しい音楽作品で再利用されたオーディオ録音の一部の検出と識別は、オーディオクエリベースの検索の分野で不可欠ではあるが挑戦的なタスクです。
関連するタスクであるオーディオフィンガープリントは、「リアルワールド」(騒々しい、反響)条件下で音楽コンテンツを正確に取得することで大きな進歩を遂げましたが、ASIDシステムは音楽の修正を受けたサンプルを特定するのに苦労しています。
したがって、タイムストレッチング、ピッチシフト、エフェクト処理、根本的またはオーバーレイ音楽などの一般的な音楽制作の変換に堅牢なシステムは、重要なオープンな課題です。
この作業では、対照的な学習フレームワーク内でグラフニューラルネットワークを使用した軽量でスケーラブルなエンコーディングアーキテクチャを提案します。
私たちのモデルは、同等のパフォーマンスを達成しながら、現在の最先端のシステムと比較してトレーニング可能なパラメーターの9%のみを使用し、平均平均精度(MAP)に44.2%に達します。
検索の品質を向上させるために、候補選択の初期の粗い類似性検索で構成される2段階のアプローチを導入し、その後、無関係な一致を拒否し、検索された候補者のランキングを改良するクロスアテンション分類器を紹介します。
さらに、現実世界のアプリケーションのクエリは多くの場合、期間が短いため、Sample100データセットの新しいファイングレインアノテーションを使用して短いクエリのシステムをベンチマークします。これは、この作業の一部として公開します。

要約(オリジナル)

Automatic sample identification (ASID), the detection and identification of portions of audio recordings that have been reused in new musical works, is an essential but challenging task in the field of audio query-based retrieval. While a related task, audio fingerprinting, has made significant progress in accurately retrieving musical content under ‘real world’ (noisy, reverberant) conditions, ASID systems struggle to identify samples that have undergone musical modifications. Thus, a system robust to common music production transformations such as time-stretching, pitch-shifting, effects processing, and underlying or overlaying music is an important open challenge. In this work, we propose a lightweight and scalable encoding architecture employing a Graph Neural Network within a contrastive learning framework. Our model uses only 9% of the trainable parameters compared to the current state-of-the-art system while achieving comparable performance, reaching a mean average precision (mAP) of 44.2%. To enhance retrieval quality, we introduce a two-stage approach consisting of an initial coarse similarity search for candidate selection, followed by a cross-attention classifier that rejects irrelevant matches and refines the ranking of retrieved candidates – an essential capability absent in prior models. In addition, because queries in real-world applications are often short in duration, we benchmark our system for short queries using new fine-grained annotations for the Sample100 dataset, which we publish as part of this work.

arxiv情報

著者 Aditya Bhattacharjee,Ivan Meresman Higgs,Mark Sandler,Emmanouil Benetos
発行日 2025-06-17 16:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SD, H.5.5 パーマリンク