LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging

要約

トランスフォーマーは、オーディオ処理タスクに新しいベンチマークを設定し、オーディオデータ内の複雑なパターンと依存関係をキャプチャする自己触媒メカニズムを活用しています。
ただし、ペアワイズインタラクションに焦点を当てることで、異なるオーディオオブジェクトを識別するために不可欠な高次の関係を処理する能力が制限されます。
この制限に対処するために、この作業では、ローカル近隣情報とファジーCミーンズクラスターの高次データを統合し、それによってより広範なスペクトルをキャプチャすることにより、特徴の理解を高めるグラフベースのモデルであるローカル高級グラフニューラルネットワーク(LHGNN)を導入します。
オーディオ関係の。
3つの公開されているオーディオデータセットでのモデルの評価は、すべてのベンチマークでトランスベースのモデルよりも優れていることを示しています。
さらに、LHGNNは、Imagenet Pretrainingを欠いているシナリオで明確な利点を示し、広範な事前トレーニングデータが利用できない環境でその有効性と効率を確立します。

要約(オリジナル)

Transformers have set new benchmarks in audio processing tasks, leveraging self-attention mechanisms to capture complex patterns and dependencies within audio data. However, their focus on pairwise interactions limits their ability to process the higher-order relations essential for identifying distinct audio objects. To address this limitation, this work introduces the Local- Higher Order Graph Neural Network (LHGNN), a graph based model that enhances feature understanding by integrating local neighbourhood information with higher-order data from Fuzzy C-Means clusters, thereby capturing a broader spectrum of audio relationships. Evaluation of the model on three publicly available audio datasets shows that it outperforms Transformer-based models across all benchmarks while operating with substantially fewer parameters. Moreover, LHGNN demonstrates a distinct advantage in scenarios lacking ImageNet pretraining, establishing its effectiveness and efficiency in environments where extensive pretraining data is unavailable.

arxiv情報

著者 Shubhr Singh,Emmanouil Benetos,Huy Phan,Dan Stowell
発行日 2025-01-29 12:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク