Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition

要約

この論文では、空間情報と逐次時間ダイナミクスの両方を統合するために、事前トレーニングフレームワークに逐次知覚アダプタを組み込む、少数ショットアクション認識(FSAR)用の新しい時間シーケンス認識モデル(TSAM)を提案します。
機能の埋め込みに。
すべてのフレーム間の関係を調査することで時間情報をキャプチャする既存の微調整アプローチとは異なり、当社の知覚ベースのアダプターは、順序の変化を認識できるタイムラインに沿った逐次的なダイナミクスを繰り返しキャプチャします。
各クラスの識別表現を取得するために、大規模言語モデル (LLM) から派生した各クラスのテキスト コーパスを拡張し、文脈上の意味情報を統合することで視覚的なプロトタイプを強化します。
さらに、クラスに無関係な機能の影響を軽減する機能マッチングのための不均衡な最適トランスポート戦略を導入し、それによってより効果的な意思決定を促進します。
5 つの FSAR データセットに関する実験結果は、私たちの手法が 2 番目に優れた競合他社を大差で破り、新しいベンチマークを設定したことを示しています。

要約(オリジナル)

In this paper, we propose a novel Temporal Sequence-Aware Model (TSAM) for few-shot action recognition (FSAR), which incorporates a sequential perceiver adapter into the pre-training framework, to integrate both the spatial information and the sequential temporal dynamics into the feature embeddings. Different from the existing fine-tuning approaches that capture temporal information by exploring the relationships among all the frames, our perceiver-based adapter recurrently captures the sequential dynamics alongside the timeline, which could perceive the order change. To obtain the discriminative representations for each class, we extend a textual corpus for each class derived from the large language models (LLMs) and enrich the visual prototypes by integrating the contextual semantic information. Besides, We introduce an unbalanced optimal transport strategy for feature matching that mitigates the impact of class-unrelated features, thereby facilitating more effective decision-making. Experimental results on five FSAR datasets demonstrate that our method set a new benchmark, beating the second-best competitors with large margins.

arxiv情報

著者 Bozheng Li,Mushui Liu,Gaoang Wang,Yunlong Yu
発行日 2024-08-22 15:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク