要約
拡散モデルは最近、ビデオ、流体力学シミュレーション、気候データなどの時間データに適用されることが増えています。
これらの方法は一般に、拡散プロセスのノイズ量に関して後続のフレームを同等に扱います。
このペーパーでは、スライディング ウィンドウのノイズ除去プロセスを使用する新しいアプローチであるローリング拡散について説明します。
これは、シーケンスの後半に現れるフレームにより多くのノイズを割り当てることで、時間の経過とともに拡散プロセスが徐々に悪化することを保証し、生成プロセスが展開するにつれて将来についてのより大きな不確実性を反映します。
時間的ダイナミクスが複雑な場合、ローリング拡散が標準拡散よりも優れていることが経験的に示されています。
特に、この結果は、Kinetics-600 ビデオ データセットを使用したビデオ予測タスクとカオス流体力学予測実験で実証されています。
要約(オリジナル)
Diffusion models have recently been increasingly applied to temporal data such as video, fluid mechanics simulations, or climate data. These methods generally treat subsequent frames equally regarding the amount of noise in the diffusion process. This paper explores Rolling Diffusion: a new approach that uses a sliding window denoising process. It ensures that the diffusion process progressively corrupts through time by assigning more noise to frames that appear later in a sequence, reflecting greater uncertainty about the future as the generation process unfolds. Empirically, we show that when the temporal dynamics are complex, Rolling Diffusion is superior to standard diffusion. In particular, this result is demonstrated in a video prediction task using the Kinetics-600 video dataset and in a chaotic fluid dynamics forecasting experiment.
arxiv情報
著者 | David Ruhe,Jonathan Heek,Tim Salimans,Emiel Hoogeboom |
発行日 | 2024-06-06 17:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google