Intention-Conditioned Long-Term Human Egocentric Action Forecasting

要約

人間が将来どのように行動するかを予測するには、人間の意図を理解することが不可欠です。
この論文では、人間の一連の行動 (低レベル) が人間の意図 (高レベル) から駆動できると仮定する階層型アーキテクチャを提案します。
これに基づいて、私たちは自己中心的なビデオでの長期行動予測タスクを扱います。
私たちのフレームワークは、最初に、階層型マルチタスク MLP ミキサー (H3M) を介して、N 個の観察されたビデオの人間の行動から 2 レベルの人間の情報を抽出します。
次に、観測された人間が実行する可能性のある次の Z = 20 アクションの K 個の安定した予測を生成する意図条件付き変分自動エンコーダー (I-CVAE) を通じて、将来の不確実性を調整します。
人間の意図を高レベルの情報として活用することで、私たちのモデルは長期的により時間的に一貫性のあるアクションを予測できるため、EGO4D チャレンジのベースライン メソッドよりも結果が改善されると主張しています。
この作品は、CVPR@2022 と ECVV@2022 EGO4D LTA チャレンジの両方で、より妥当な予測シーケンスを提供し、名詞と全体的なアクションの予測を改善することで、1 位にランクされました。
コードは https://github.com/Evm7/ego4dlta-icvae で入手できます。

要約(オリジナル)

To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in both CVPR@2022 and ECVV@2022 EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. The code is available at https://github.com/Evm7/ego4dlta-icvae.

arxiv情報

著者 Esteve Valls Mascaro,Hyemin Ahn,Dongheui Lee
発行日 2022-12-16 10:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク