Intention-Conditioned Long-Term Human Egocentric Action Forecasting

要約

人間が将来どのように行動するかを予測するには、人間を特定の目標に導くための人間の意図を理解することが不可欠です。
この論文では、人間の一連の行動 (低レベル) が人間の意図 (高レベル) から駆動できると仮定した階層アーキテクチャを提案します。
これに基づいて、自己中心的なビデオにおける長期的な行動の予測タスクを扱います。
私たちのフレームワークは、まず階層型マルチタスク MLP ミキサー (H3M) を通じて、人間の行動が観察された N 個のビデオから 2 つのレベルの人間情報を抽出します。
次に、観察された人間が実行する可能性のある次の Z=20 アクションの K 個の安定した予測を生成する意図条件付き変分自動エンコーダー (I-CVAE) を通じて、将来の不確実性を条件付けします。
人間の意図を高レベルの情報として活用することで、私たちのモデルは長期的にはより時間の一貫したアクションを予測できるため、EGO4D Challenge のベースライン手法よりも結果が向上すると主張しています。
この作品は、よりもっともらしい予測シーケンスを提供し、名詞と全体的なアクションの予測を向上させることで、CVPR@2022 と ECVV@2022 EGO4D LTA Challenge の両方で 1 位にランクされました。
ウェブページ: https://evm7.github.io/icvae-page/

要約(オリジナル)

To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in both CVPR@2022 and ECVV@2022 EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. Webpage: https://evm7.github.io/icvae-page/

arxiv情報

著者 Esteve Valls Mascaro,Hyemin Ahn,Dongheui Lee
発行日 2024-04-08 15:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク