要約
ディープラーニングはビデオ理解タスクにおいて大幅な進歩を遂げましたが、クリップレベルのビデオ分類器を使用して長くて大規模なビデオを分類するために必要な計算は依然として非現実的であり、法外に高価です。
この問題に対処するために、一般的に利用可能なオーディオおよびビジュアル モダリティを活用して、ビデオの時空間的に重要な部分を効率的に処理する Audio-Visual Glance Network (AVGN) を提案します。
AVGN は、まずビデオを画像と音声のクリップ ペアのスニペットに分割し、軽量のユニモーダル エンコーダーを使用して、グローバルな視覚特徴と音声特徴を抽出します。
重要な時間セグメントを識別するために、各フレームの顕著性スコアを推定するオーディオビジュアル時間顕著性トランスフォーマー (AV-TeST) を使用します。
空間次元の効率をさらに高めるために、AVGN は画像全体ではなく重要なパッチのみを処理します。
Audio-Enhanced Spatial Patch Attendance (AESPA) モジュールを使用して、強化された粗い視覚特徴のセットを生成します。これらの特徴は、重要なパッチの座標を生成するポリシー ネットワークに供給されます。
このアプローチにより、ビデオの時空間的に最も重要な部分のみに焦点を当てることができ、より効率的なビデオ認識につながります。
さらに、さまざまなトレーニング手法とマルチモーダル機能の融合を組み込んで、AVGN の堅牢性と有効性を強化しています。
これらの戦略を組み合わせることで、当社の AVGN は、より高速な処理速度を達成しながら、複数のビデオ認識ベンチマークで新しい最先端のパフォーマンスを確立します。
要約(オリジナル)
Deep learning has made significant strides in video understanding tasks, but the computation required to classify lengthy and massive videos using clip-level video classifiers remains impractical and prohibitively expensive. To address this issue, we propose Audio-Visual Glance Network (AVGN), which leverages the commonly available audio and visual modalities to efficiently process the spatio-temporally important parts of a video. AVGN firstly divides the video into snippets of image-audio clip pair and employs lightweight unimodal encoders to extract global visual features and audio features. To identify the important temporal segments, we use an Audio-Visual Temporal Saliency Transformer (AV-TeST) that estimates the saliency scores of each frame. To further increase efficiency in the spatial dimension, AVGN processes only the important patches instead of the whole images. We use an Audio-Enhanced Spatial Patch Attention (AESPA) module to produce a set of enhanced coarse visual features, which are fed to a policy network that produces the coordinates of the important patches. This approach enables us to focus only on the most important spatio-temporally parts of the video, leading to more efficient video recognition. Moreover, we incorporate various training techniques and multi-modal feature fusion to enhance the robustness and effectiveness of our AVGN. By combining these strategies, our AVGN sets new state-of-the-art performance in multiple video recognition benchmarks while achieving faster processing speed.
arxiv情報
著者 | Muhammad Adi Nugroho,Sangmin Woo,Sumin Lee,Changick Kim |
発行日 | 2023-08-18 05:46:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google