MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation

要約

長期的な密な行動の予想は、提供されたビデオ観測に基づいて、将来の数分の数分のアクションとその期間を予測する必要があるため、非常に困難です。
将来の結果の不確実性をモデル化するために、確率モデルは、同じ観察のためのいくつかの潜在的な将来のアクションシーケンスを予測します。
最近の研究は、統一された方法でフレームごとの過去と将来のアクションを同時に予測することにより、観測されたフレームの不確実性モデリングを組み込むことをさらに提案しています。
このようなアクションの共同モデリングは有益ですが、遠い過去および将来の時点でイベントを接続するには、長距離の時間的能力が必要です。
しかし、以前の研究は、その制限および/またはまばらな受容フィールドのために、このような長期的な理解を達成するのに苦労しています。
この問題を軽減するために、私たちは新しいManta(Mamba for Heptation)ネットワークを提案します。
私たちのモデルは、非常に長いシーケンスでも効果的な長期時間モデリングを可能にし、シーケンス長の線形複雑さを維持します。
私たちのアプローチは、朝食、50Salads、Assembly101の3つのデータセットで最新の結果を達成し、計算効率とメモリ効率を大幅に改善することを実証します。
私たちのコードは、https://github.com/olga-zats/diff_mantaで入手できます。

要約(オリジナル)

Long-term dense action anticipation is very challenging since it requires predicting actions and their durations several minutes into the future based on provided video observations. To model the uncertainty of future outcomes, stochastic models predict several potential future action sequences for the same observation. Recent work has further proposed to incorporate uncertainty modelling for observed frames by simultaneously predicting per-frame past and future actions in a unified manner. While such joint modelling of actions is beneficial, it requires long-range temporal capabilities to connect events across distant past and future time points. However, the previous work struggles to achieve such a long-range understanding due to its limited and/or sparse receptive field. To alleviate this issue, we propose a novel MANTA (MAmba for ANTicipation) network. Our model enables effective long-term temporal modelling even for very long sequences while maintaining linear complexity in sequence length. We demonstrate that our approach achieves state-of-the-art results on three datasets – Breakfast, 50Salads, and Assembly101 – while also significantly improving computational and memory efficiency. Our code is available at https://github.com/olga-zats/DIFF_MANTA .

arxiv情報

著者 Olga Zatsarynna,Emad Bahrami,Yazan Abu Farha,Gianpiero Francesca,Juergen Gall
発行日 2025-03-21 17:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク