要約
長期的な行動の予測は、自動運転や人間とロボットのインタラクションなどの多くのアプリケーションにとって重要なタスクとなっています。
短期的な予測とは異なり、より長期にわたる不確実性が高まる中、将来のさらなる行動を予測することは大きな課題となります。
将来のより多くのアクションの予測においては大きな進歩が見られますが、提案された手法のほとんどは決定論的な設定でタスクに対処し、根底にある不確実性を無視しています。
この論文では、観測と将来予測の両方の不確実性をモデル化する新しいゲート時間拡散 (GTD) ネットワークを提案します。
ジェネレーターとして、ビデオの観察されたフレームと観察されなかったフレームの両方を相互表現でモデル化するゲート型予測ネットワーク (GTAN) を導入します。
一方では、過去と未来の相互表現を使用することで、観測と未来のあいまいさを共同でモデル化することができ、他方では、GTAN は設計により、観測された部分と観測されていない部分を別々に扱い、それらの間の情報の流れを制御することができます。
私たちのモデルは、確率的設定と決定的設定の両方で、Breakfast、Assembly101、および 50Salads データセットで最先端の結果を達成します。
コード: https://github.com/olga-zats/GTDA 。
要約(オリジナル)
Long-term action anticipation has become an important task for many applications such as autonomous driving and human-robot interaction. Unlike short-term anticipation, predicting more actions into the future imposes a real challenge with the increasing uncertainty in longer horizons. While there has been a significant progress in predicting more actions into the future, most of the proposed methods address the task in a deterministic setup and ignore the underlying uncertainty. In this paper, we propose a novel Gated Temporal Diffusion (GTD) network that models the uncertainty of both the observation and the future predictions. As generator, we introduce a Gated Anticipation Network (GTAN) to model both observed and unobserved frames of a video in a mutual representation. On the one hand, using a mutual representation for past and future allows us to jointly model ambiguities in the observation and future, while on the other hand GTAN can by design treat the observed and unobserved parts differently and steer the information flow between them. Our model achieves state-of-the-art results on the Breakfast, Assembly101 and 50Salads datasets in both stochastic and deterministic settings. Code: https://github.com/olga-zats/GTDA .
arxiv情報
著者 | Olga Zatsarynna,Emad Bahrami,Yazan Abu Farha,Gianpiero Francesca,Juergen Gall |
発行日 | 2024-07-16 17:48:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google