Interaction Visual Transformer for Egocentric Action Anticipation

要約

タイトル:予測的な自己中心的なアクションのためのインタラクションビジュアルトランスフォーマー

要約:人間と物体の相互作用は、最も重要なビジュアルキューの一つであり、自己中心的なアクションの予測のために人間と物体の相互作用の新しい表現方法を提案しています。我々は、アクションの実行による物体と人間の手の外観の変化を計算することで、相互作用をモデル化する新しいトランスフォーマーの変形を提案します。具体的には、手と物体の相互作用を空間クロスアテンション(SCA)を使用してモデル化し、軌跡クロスアテンションを使用してコンテキスト情報をさらに注入し、環境に適合した相互作用トークンを取得します。これらのトークンを使用して、アクションの予測のための相互作用中心のビデオ表現を構築します。我々は、InAViTと呼ばれるこのモデルを構築しました。EK100、EGTEA Gaze+ といった大規模な自己中心的なデータセットで最先端のアクション予測パフォーマンスを達成しています。InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーに対しても優れたパフォーマンスを発揮しています。EK100評価サーバーで、InAViTは公開リーダーボードのトップであり(提出時点で)、平均トップ5リコールで第2位のモデルを3.3%上回っています。

要点:

– 自己中心的なアクションの予測のために新しい相互作用の表現方法を提案している。
– 新しいトランスフォーマーを使用し、人間と物体の相互作用をモデル化している。
– SCAと軌跡クロスアテンションを使用して相互作用トークンを取得し、Interaction-centric video representationを構築する。
– InAViTは大規模なデータセットEK100、EGTEA Gaze+で最先端のアクション予測パフォーマンスを達成している。
– InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーに対しても優れたパフォーマンスを発揮している。

要約(オリジナル)

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.

arxiv情報

著者 Debaditya Roy,Ramanathan Rajendiran,Basura Fernando
発行日 2023-04-25 03:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク