DiffAnt: Diffusion Models for Action Anticipation


進行中のアクションを含む観察されたビデオ セグメントを考えると、複数の後続アクションが続く可能性があります。
このフレームワークでは、将来のアクションは潜在空間の標準ガウス ノイズから繰り返し生成され、観察されたビデオに条件付けされ、その後アクション空間に移行されます。
4 つのベンチマーク データセット (Breakfast、50Salads、EpicKitchens、EGTEA Gaze+) に対する広範な実験が実行され、提案された手法は最先端の手法よりも優れた、または同等の結果を達成し、行動予測に対する生成的アプローチの有効性を示しています。

私たちのコードとトレーニングされたモデルは GitHub で公開されます。


Anticipating future actions is inherently uncertain. Given an observed video segment containing ongoing actions, multiple subsequent actions can plausibly follow. This uncertainty becomes even larger when predicting far into the future. However, the majority of existing action anticipation models adhere to a deterministic approach, neglecting to account for future uncertainties. In this work, we rethink action anticipation from a generative view, employing diffusion models to capture different possible future actions. In this framework, future actions are iteratively generated from standard Gaussian noise in the latent space, conditioned on the observed video, and subsequently transitioned into the action space. Extensive experiments on four benchmark datasets, i.e., Breakfast, 50Salads, EpicKitchens, and EGTEA Gaze+, are performed and the proposed method achieves superior or comparable results to state-of-the-art methods, showing the effectiveness of a generative approach for action anticipation. Our code and trained models will be published on GitHub.


著者 Zeyun Zhong,Chengzhi Wu,Manuel Martin,Michael Voit,Juergen Gall,Jürgen Beyerer
発行日 2023-11-27 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク