Semantically Guided Representation Learning For Action Anticipation

要約

アクションの予測は、部分的に観察された一連のイベントから将来のアクティビティを予測するタスクです。
ただし、このタスクは、本質的な将来の不確実性と、相互に関連するアクションを推論することの難しさにさらされています。
より良い視覚的および時間的情報の外挿に焦点を当てた以前の研究とは異なり、私たちはプロトタイプのアクションパターンと文脈上の共起に基づいた意味論的な相互接続性を意識したアクション表現の学習に焦点を当てています。
この目的を達成するために、私たちは新しい意味的誘導表現学習 (S-GEAR) フレームワークを提案します。
S-GEAR は、視覚的なアクションのプロトタイプを学習し、言語モデルを活用してそれらの関係を構造化し、意味論性を誘導します。
S-GEAR の有効性に関する洞察を収集するために、4 つのアクション予測ベンチマークでテストし、以前の作品と比較して改善された結果が得られました: Epic-Kitchen 55、EGTEA Gaze+ のトップ 1 精度で +3.5、+2.7、および +3.5 絶対ポイント
Epic-Kitchens 100 では、トップ 5 の想起率が +0.8 でした。さらに、S-GEAR がアクション間の幾何学的関連を言語から視覚的なプロトタイプに効果的に転送していることも観察しました。
最後に、S-GEAR は、アクションの意味論的な相互接続性の複雑な影響を実証することにより、予測タスクにおける新たな研究のフロンティアを開きます。

要約(オリジナル)

Action anticipation is the task of forecasting future activity from a partially observed sequence of events. However, this task is exposed to intrinsic future uncertainty and the difficulty of reasoning upon interconnected actions. Unlike previous works that focus on extrapolating better visual and temporal information, we concentrate on learning action representations that are aware of their semantic interconnectivity based on prototypical action patterns and contextual co-occurrences. To this end, we propose the novel Semantically Guided Representation Learning (S-GEAR) framework. S-GEAR learns visual action prototypes and leverages language models to structure their relationship, inducing semanticity. To gather insights on S-GEAR’s effectiveness, we test it on four action anticipation benchmarks, obtaining improved results compared to previous works: +3.5, +2.7, and +3.5 absolute points on Top-1 Accuracy on Epic-Kitchen 55, EGTEA Gaze+ and 50 Salads, respectively, and +0.8 on Top-5 Recall on Epic-Kitchens 100. We further observe that S-GEAR effectively transfers the geometric associations between actions from language to visual prototypes. Finally, S-GEAR opens new research frontiers in anticipation tasks by demonstrating the intricate impact of action semantic interconnectivity.

arxiv情報

著者 Anxhelo Diko,Danilo Avola,Bardh Prenkaj,Federico Fontana,Luigi Cinque
発行日 2024-07-02 14:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク