Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

要約

私たちは、ほぼ対称的なアクションを認識するという承認されていない課題のパラメーター効率の高い画像からビデオへの調査 – 反対の時間的順序で展開する視覚的に類似したアクション(たとえば、ボトルの閉鎖と閉鎖など)。
DinoV2やClipなどの画像処理されたモデルの既存の調査メカニズムは、時間モデリングの注意メカニズムに依存していますが、本質的に順列不変であり、フレームの順序に関係なく同一の予測につながります。
これに対処するために、パラメーター効率の高い画像からビデオへの移動に時間感度を施行するために設計されたシンプルで効果的なアプローチである、自己触媒的時間埋め込みプロービング(STEP)を紹介します。
ステップは、3つの重要な修正を使用して、自己触媒プロービングを強化します。(1)学習可能なフレームごとの位置エンコーディング、一時的な順序を明示的にエンコードする。
(2)シーケンスコヒーレンスのための単一のグローバルCLSトークン。
(3)パラメーター効率を改善するための簡略化された注意メカニズム。
ステップは、学習可能なパラメーターの1/3のみで、4つのアクティビティ認識ベンチマークにわたって既存の画像からビデオへの調査メカニズムを3〜15%上回ります。
2つのデータセットでは、完全に微調整されたモデルを含む、公開されたすべての方法を上回ります。
ステップは、ほぼ対称的なアクションを認識し、他のプローブメカニズムを9〜19%上回ることにおける明確な利点を示しています。
パラメーター – ハビエPEFTベースの転送方法は5〜15%です。
コードとモデルは公開されます。

要約(オリジナル)

We study parameter-efficient image-to-video probing for the unaddressed challenge of recognizing nearly symmetric actions – visually similar actions that unfold in opposite temporal order (e.g., opening vs. closing a bottle). Existing probing mechanisms for image-pretrained models, such as DinoV2 and CLIP, rely on attention mechanism for temporal modeling but are inherently permutation-invariant, leading to identical predictions regardless of frame order. To address this, we introduce Self-attentive Temporal Embedding Probing (STEP), a simple yet effective approach designed to enforce temporal sensitivity in parameter-efficient image-to-video transfer. STEP enhances self-attentive probing with three key modifications: (1) a learnable frame-wise positional encoding, explicitly encoding temporal order; (2) a single global CLS token, for sequence coherence; and (3) a simplified attention mechanism to improve parameter efficiency. STEP outperforms existing image-to-video probing mechanisms by 3-15% across four activity recognition benchmarks with only 1/3 of the learnable parameters. On two datasets, it surpasses all published methods, including fully fine-tuned models. STEP shows a distinct advantage in recognizing nearly symmetric actions, surpassing other probing mechanisms by 9-19%. and parameter-heavier PEFT-based transfer methods by 5-15%. Code and models will be made publicly available.

arxiv情報

著者 Thinesh Thiyakesan Ponbagavathi,Alina Roitberg
発行日 2025-03-31 16:42:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク