Frame Interpolation with Consecutive Brownian Bridge Diffusion

要約

ビデオ フレーム補間 (VFI) における最近の研究では、VFI を拡散ベースの条件付き画像生成問題として定式化し、ランダム ノイズが与えられた中間フレームと隣接フレームを合成しようとしています。
ビデオの解像度が比較的高いため、潜在拡散モデル (LDM) が条件付き生成モデルとして使用されます。このモデルでは、オートエンコーダーが画像を拡散用の潜在表現に圧縮し、これらの潜在表現から画像を再構成します。
このような定式化は、重大な課題を引き起こします。VFI は、出力がグラウンド トゥルース中間フレームと決定論的に等しいことを期待しますが、LDM は、モデルが複数回実行されると、異なる画像の多様なセットをランダムに生成します。
生成が多様である理由は、LDM で生成される潜在表現の累積分散 (生成の各ステップで累積される分散) が大きいためです。
これにより、サンプリングの軌跡がランダムになり、決定的な世代ではなく多様な世代が生成されます。
この問題に対処するために、私たちは独自のソリューションである連続ブラウンブリッジ拡散によるフレーム補間を提案します。
具体的には、決定論的な初期値を入力として受け取る連続ブラウンブリッジ拡散を提案します。これにより、生成される潜在表現の累積分散がはるかに小さくなります。
私たちの実験は、私たちの方法がオートエンコーダーの改善とともに改善され、VFIで最先端のパフォーマンスを達成できることを示唆しており、さらなる強化の可能性が強いです。

要約(オリジナル)

Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement.

arxiv情報

著者 Zonglin Lyu,Ming Li,Jianbo Jiao,Chen Chen
発行日 2024-07-29 15:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク