要約
私たちの研究は、確率論的長期密予測の問題に取り組んでいます。
このタスクの目標は、提供されたビデオ観察に基づいて、数分先のアクションとその継続時間を予測することです。
単一の観察が複数のもっともらしい将来の結果につながる可能性があるため、長期にわたる予測は高い不確実性をもたらします。
この不確実性に対処するために、確率モデルは、将来のいくつかの潜在的な行動シーケンスを予測するように設計されています。
最近の研究では、統合された方法でフレームごとの過去および将来のアクションを同時に予測することにより、観測フレームの不確実性モデリングを組み込むことがさらに提案されています。
このようなアクションの共同モデリングは有益ですが、遠い過去と将来の時点にまたがるイベントを結び付けるには、長距離の時間的機能が必要です。
しかし、前作は受容野が限られている、または希薄であるため、そのような長期的な理解を達成するのに苦労しています。
この問題を軽減するために、新しい MANTA (MAmba for ANTicipation) ネットワークを提案します。
私たちのモデルは、シーケンスの長さの線形複雑さを維持しながら、非常に長いシーケンスであっても効果的な長期時間モデリングを可能にします。
私たちのアプローチが、Breakfast、50Salads、Assembly101 の 3 つのデータセットで最先端の結果を達成すると同時に、計算効率とメモリ効率も大幅に向上することを実証します。
要約(オリジナル)
Our work addresses the problem of stochastic long-term dense anticipation. The goal of this task is to predict actions and their durations several minutes into the future based on provided video observations. Anticipation over extended horizons introduces high uncertainty, as a single observation can lead to multiple plausible future outcomes. To address this uncertainty, stochastic models are designed to predict several potential future action sequences. Recent work has further proposed to incorporate uncertainty modelling for observed frames by simultaneously predicting per-frame past and future actions in a unified manner. While such joint modelling of actions is beneficial, it requires long-range temporal capabilities to connect events across distant past and future time points. However, the previous work struggles to achieve such a long-range understanding due to its limited and/or sparse receptive field. To alleviate this issue, we propose a novel MANTA (MAmba for ANTicipation) network. Our model enables effective long-term temporal modelling even for very long sequences while maintaining linear complexity in sequence length. We demonstrate that our approach achieves state-of-the-art results on three datasets – Breakfast, 50Salads, and Assembly101 – while also significantly improving computational and memory efficiency.
arxiv情報
著者 | Olga Zatsarynna,Emad Bahrami,Yazan Abu Farha,Gianpiero Francesca,Juergen Gall |
発行日 | 2025-01-15 14:46:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google