Play It Back: Iterative Attention for Audio Recognition

要約

聴覚認知の重要な機能は、特徴的な音とそれに対応するセマンティクスを経時的に関連付けることです。
人間は、きめの細かいオーディオ カテゴリを識別しようとしますが、予測の信頼性を高めるために、同じ識別音を再生することがよくあります。
選択的な繰り返しを通じて、オーディオ シーケンス全体で最も識別可能な音に注意を向ける、エンド ツー エンドの注意ベースのアーキテクチャを提案します。
私たちのモデルは、最初に完全なオーディオ シーケンスを使用し、スロットの注意に基づいて再生される一時的なセグメントを繰り返し調整します。
再生のたびに、選択されたセグメントは、これらのセグメント内の高解像度機能を表す短いホップ長を使用して再生されます。
私たちの方法が、AudioSet、VGG-Sound、および EPIC-KITCHENS-100 の 3 つのオーディオ分類ベンチマークで最先端のパフォーマンスを一貫して達成できることを示します。

要約(オリジナル)

A key function of auditory cognition is the association of characteristic sounds with their corresponding semantics over time. Humans attempting to discriminate between fine-grained audio categories, often replay the same discriminative sounds to increase their prediction confidence. We propose an end-to-end attention-based architecture that through selective repetition attends over the most discriminative sounds across the audio sequence. Our model initially uses the full audio sequence and iteratively refines the temporal segments replayed based on slot attention. At each playback, the selected segments are replayed using a smaller hop length which represents higher resolution features within these segments. We show that our method can consistently achieve state-of-the-art performance across three audio-classification benchmarks: AudioSet, VGG-Sound, and EPIC-KITCHENS-100.

arxiv情報

著者 Alexandros Stergiou,Dima Damen
発行日 2022-10-20 15:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク