EAViT: External Attention Vision Transformer for Audio Classification

要約

この文書では、オーディオ分類の精度を高めるために設計された新しいアプローチである、外部アテンション ビジョン トランスフォーマー (EAViT) モデルについて説明します。
デジタル オーディオ リソースが急増するにつれて、音楽ストリーミング プラットフォームや環境音認識などのさまざまなアプリケーションにおけるレコメンデーション システムの改善とユーザーのパーソナライゼーションの必要性により、正確かつ効率的なオーディオ分類システムに対する需要が高まっています。
正確なオーディオ分類は、膨大なオーディオ ライブラリを一貫したカテゴリに整理し、ユーザーが好みのオーディオ コンテンツをより効率的に見つけて操作できるようにするために重要です。
この研究では、10 の多様なジャンルにわたる 1,000 の音楽抜粋で構成される GTZAN データセットを利用します。
30 秒の各オーディオ クリップは 3 秒の抜粋に分割され、データセットの堅牢性が強化され、過剰適合のリスクが軽減され、より詳細な特徴分析が可能になります。
EAViT モデルは、マルチヘッド外部アテンション (MEA) メカニズムをビジョン トランスフォーマー (ViT) フレームワークに統合し、サンプル間の長距離依存性と潜在的な相関関係を効果的に捕捉します。
この外部アテンション (EA) メカニズムは、複雑なオーディオ機能を効率的に処理するネットワークの能力を強化する学習可能なメモリ ユニットを採用しています。
この研究では、EAViT が 93.99% という驚異的な全体精度を達成し、最先端のモデルを上回っていることが実証されています。

要約(オリジナル)

This paper presents the External Attention Vision Transformer (EAViT) model, a novel approach designed to enhance audio classification accuracy. As digital audio resources proliferate, the demand for precise and efficient audio classification systems has intensified, driven by the need for improved recommendation systems and user personalization in various applications, including music streaming platforms and environmental sound recognition. Accurate audio classification is crucial for organizing vast audio libraries into coherent categories, enabling users to find and interact with their preferred audio content more effectively. In this study, we utilize the GTZAN dataset, which comprises 1,000 music excerpts spanning ten diverse genres. Each 30-second audio clip is segmented into 3-second excerpts to enhance dataset robustness and mitigate overfitting risks, allowing for more granular feature analysis. The EAViT model integrates multi-head external attention (MEA) mechanisms into the Vision Transformer (ViT) framework, effectively capturing long-range dependencies and potential correlations between samples. This external attention (EA) mechanism employs learnable memory units that enhance the network’s capacity to process complex audio features efficiently. The study demonstrates that EAViT achieves a remarkable overall accuracy of 93.99%, surpassing state-of-the-art models.

arxiv情報

著者 Aquib Iqbal,Abid Hasan Zim,Md Asaduzzaman Tonmoy,Limengnan Zhou,Asad Malik,Minoru Kuribayashi
発行日 2024-08-23 16:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS パーマリンク