Autoregression-free video prediction using diffusion model for mitigating error propagation

要約

既存の長期ビデオ予測方法は、多くの場合、自己回帰ビデオ予測メカニズムに依存しています。
ただし、このアプローチは、特に遠い将来のフレームでは、エラー伝播に悩まされています。
この制限に対処するために、このペーパーでは、拡散モデルを使用して、最初の自己網目上の(ARFREE)ビデオ予測フレームワークを提案します。
自己回帰ビデオ予測メカニズムとは異なり、Arfreeはコンテキストフレームタプルの将来のフレームタプルを直接予測します。
提案されているアーフリーは、2つの重要なコンポーネントで構成されています。1)コンテキストフレームタプルから抽出されたモーション機能を使用して将来のモーションを予測するモーション予測モジュール。
2)隣接する将来のフレームタプル間のモーションの連続性とコンテキストの一貫性を改善するトレーニング方法。
2つのベンチマークデータセットを使用した実験は、提案されているArfreeビデオ予測フレームワークがいくつかの最先端のビデオ予測方法よりも優れていることを示しています。

要約(オリジナル)

Existing long-term video prediction methods often rely on an autoregressive video prediction mechanism. However, this approach suffers from error propagation, particularly in distant future frames. To address this limitation, this paper proposes the first AutoRegression-Free (ARFree) video prediction framework using diffusion models. Different from an autoregressive video prediction mechanism, ARFree directly predicts any future frame tuples from the context frame tuple. The proposed ARFree consists of two key components: 1) a motion prediction module that predicts a future motion using motion feature extracted from the context frame tuple; 2) a training method that improves motion continuity and contextual consistency between adjacent future frame tuples. Our experiments with two benchmark datasets show that the proposed ARFree video prediction framework outperforms several state-of-the-art video prediction methods.

arxiv情報

著者 Woonho Ko,Jin Bok Park,Il Yong Chun
発行日 2025-05-30 16:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク