SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

要約

動作認識の高フレームレート (HFR) ビデオは、時空間関係と動作情報密度を低減しながら、きめ細かい表現を向上させます。
したがって、従来のデータ駆動型トレーニングでは大量のビデオ サンプルが継続的に必要となります。
ただし、現実世界のシナリオではサンプルが必ずしも十分であるとは限らず、少数ショット動作認識 (FSAR) 研究が促進されています。
最近の FSAR 作業では、空間特徴抽出後の時間的アライメントを介してビデオ サンプルの時空間関係を構築し、サンプル内の空間的特徴と時間的特徴を切り分けていることが観察されています。
また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報を取得するため、動き情報の取得が不十分になります。
したがって、この論文では、時空間フレーム タプル エンハンサー (SOAP) と呼ばれる FSAR 用の新しいプラグ アンド プレイ アーキテクチャを提案します。
このようなアーキテクチャで設計したモデルは SOAP-Net を指します。
単純な特徴抽出ではなく、異なる特徴チャネル間の時間的つながりや特徴の時空間関係が考慮されます。
隣接するフレームよりも多くの動き情報を含む複数のフレームを含むフレーム タプルを使用して、包括的な動き情報もキャプチャされます。
さまざまなフレーム数のフレーム タプルを組み合わせると、さらに広い視野が得られます。
SOAP-Net は、SthSthV2、Kinetics、UCF101、HMDB51 などのよく知られたベンチマーク全体で新しい最先端のパフォーマンスを実現します。
広範な実証的評価により、SOAP の競争力、プラグイン可能性、汎用性、堅牢性が強調されています。
コードは https://github.com/wenbohuang1002/SOAP で公開されています。

要約(オリジナル)

High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.

arxiv情報

著者 Wenbo Huang,Jinghui Zhang,Xuwei Qian,Zhen Wu,Meng Wang,Lei Zhang
発行日 2024-08-21 16:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク