要約
人間が将来どのように行動するかを予測するには、人間を特定の目標に導くため、人間の意図を理解することが不可欠です。
本論文では、人間の行動のシーケンス(低レベル)が人間の意図(高レベル)から駆動できることを前提とした階層アーキテクチャを提案します。
これに基づいて、自己中心的なビデオでの長期的な行動予測タスクを扱います。
私たちのフレームワークは、最初に、階層型マルチタスクMLPミキサー(H3M)を介して、N個の観察されたビデオの人間の行動から2つのレベルの人間情報を抽出します。
次に、観測された人間が実行する可能性のある次のZ = 20アクションのK個の安定した予測を生成する意図条件付き変分オートエンコーダー(I-CVAE)を使用して、将来の不確実性を調整します。
人間の意図を高レベルの情報として活用することにより、私たちのモデルは長期的にはより時間的に一貫したアクションを予測できるため、EGO4Dチャレンジのベースラインメソッドよりも結果が向上すると主張します。
この作品は、より妥当な予想シーケンスを提供し、名詞の予想と全体的なアクションを改善することにより、EGO4DLTAチャレンジで1位にランクされました。
コードはhttps://github.com/Evm7/ego4dlta-icvaeで入手できます。
要約(オリジナル)
To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in the EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. The code is available at https://github.com/Evm7/ego4dlta-icvae.
arxiv情報
著者 | Esteve Valls Mascaro,Hyemin Ahn,Dongheui Lee |
発行日 | 2022-07-25 11:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google