Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation


この論文では、観測と将来予測の両方の不確実性をモデル化する新しいゲート時間拡散 (GTD) ネットワークを提案します。
ジェネレーターとして、ビデオの観察されたフレームと観察されなかったフレームの両方を相互表現でモデル化するゲート型予測ネットワーク (GTAN) を導入します。
一方では、過去と未来の相互表現を使用することで、観測と未来のあいまいさを共同でモデル化することができ、他方では、GTAN は設計により、観測された部分と観測されていない部分を別々に扱い、それらの間の情報の流れを制御することができます。
私たちのモデルは、確率的設定と決定的設定の両方で、Breakfast、Assembly101、および 50Salads データセットで最先端の結果を達成します。
コード: 。


Long-term action anticipation has become an important task for many applications such as autonomous driving and human-robot interaction. Unlike short-term anticipation, predicting more actions into the future imposes a real challenge with the increasing uncertainty in longer horizons. While there has been a significant progress in predicting more actions into the future, most of the proposed methods address the task in a deterministic setup and ignore the underlying uncertainty. In this paper, we propose a novel Gated Temporal Diffusion (GTD) network that models the uncertainty of both the observation and the future predictions. As generator, we introduce a Gated Anticipation Network (GTAN) to model both observed and unobserved frames of a video in a mutual representation. On the one hand, using a mutual representation for past and future allows us to jointly model ambiguities in the observation and future, while on the other hand GTAN can by design treat the observed and unobserved parts differently and steer the information flow between them. Our model achieves state-of-the-art results on the Breakfast, Assembly101 and 50Salads datasets in both stochastic and deterministic settings. Code: .


著者 Olga Zatsarynna,Emad Bahrami,Yazan Abu Farha,Gianpiero Francesca,Juergen Gall
発行日 2024-07-16 17:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク