DiffAnt: Diffusion Models for Action Anticipation

要約

将来の行動の予測は本質的に不確実です。
進行中のアクションを含む観察されたビデオ セグメントを考えると、複数の後続アクションが続く可能性があります。
遠い将来を予測する場合、この不確実性はさらに大きくなります。
しかし、既存の行動予測モデルの大部分は決定論的なアプローチに固執しており、将来の不確実性を考慮することを無視しています。
この研究では、生成的な観点からアクションの予測を再考し、拡散モデルを使用して将来起こり得るさまざまなアクションを捉えます。
このフレームワークでは、将来のアクションは潜在空間の標準ガウス ノイズから繰り返し生成され、観察されたビデオに条件付けされ、その後アクション空間に移行されます。
4 つのベンチマーク データセット (Breakfast、50Salads、EpicKitchens、EGTEA Gaze+) に対する広範な実験が実行され、提案された手法は最先端の手法よりも優れた、または同等の結果を達成し、行動予測に対する生成的アプローチの有効性を示しています。

私たちのコードとトレーニングされたモデルは GitHub で公開されます。

要約(オリジナル)

Anticipating future actions is inherently uncertain. Given an observed video segment containing ongoing actions, multiple subsequent actions can plausibly follow. This uncertainty becomes even larger when predicting far into the future. However, the majority of existing action anticipation models adhere to a deterministic approach, neglecting to account for future uncertainties. In this work, we rethink action anticipation from a generative view, employing diffusion models to capture different possible future actions. In this framework, future actions are iteratively generated from standard Gaussian noise in the latent space, conditioned on the observed video, and subsequently transitioned into the action space. Extensive experiments on four benchmark datasets, i.e., Breakfast, 50Salads, EpicKitchens, and EGTEA Gaze+, are performed and the proposed method achieves superior or comparable results to state-of-the-art methods, showing the effectiveness of a generative approach for action anticipation. Our code and trained models will be published on GitHub.

arxiv情報

著者 Zeyun Zhong,Chengzhi Wu,Manuel Martin,Michael Voit,Juergen Gall,Jürgen Beyerer
発行日 2023-11-27 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク