Introducing Gating and Context into Temporal Action Detection

要約

時間的アクション検出 (TAD) は、トリミングされていないビデオ内のアクションを位置特定して分類するタスクですが、アクションの重複とアクションの継続時間が変化するため、依然として困難です。
最近の調査結果は、TAD の性能がセルフアテンション機構ではなく変圧器の構造設計に依存していることを示唆しています。
この洞察に基づいて、軽量でありながら効果的な操作を通じて洗練された特徴抽出プロセスを提案します。
まず、さまざまなウィンドウ サイズで並列畳み込みを使用するローカル ブランチを使用して、きめの細かい時間的特徴と粗い時間的特徴の両方をキャプチャします。
このブランチには、最も関連性の高い機能を選択するためのゲート メカニズムが組み込まれています。
次に、境界フレームをキーと値のペアとして使用し、クロスアテンションを通じて中央フレームとの関係を分析するコンテキスト ブランチを導入します。
提案された方法は、時間的な依存関係を捕捉し、文脈上の理解を向上させます。
困難なデータセット (THUMOS14 および EPIC-KITCHEN 100) でのゲーティング メカニズムとコンテキスト ブランチの評価では、ベースラインおよび既存の手法と比較して一貫した改善が示されています。

要約(オリジナル)

Temporal Action Detection (TAD), the task of localizing and classifying actions in untrimmed video, remains challenging due to action overlaps and variable action durations. Recent findings suggest that TAD performance is dependent on the structural design of transformers rather than on the self-attention mechanism. Building on this insight, we propose a refined feature extraction process through lightweight, yet effective operations. First, we employ a local branch that employs parallel convolutions with varying window sizes to capture both fine-grained and coarse-grained temporal features. This branch incorporates a gating mechanism to select the most relevant features. Second, we introduce a context branch that uses boundary frames as key-value pairs to analyze their relationship with the central frame through cross-attention. The proposed method captures temporal dependencies and improves contextual understanding. Evaluations of the gating mechanism and context branch on challenging datasets (THUMOS14 and EPIC-KITCHEN 100) show a consistent improvement over the baseline and existing methods.

arxiv情報

著者 Aglind Reka,Diana Laura Borza,Dominick Reilly,Michal Balazia,Francois Bremond
発行日 2024-09-06 11:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク