VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models

要約

最近のビデオ修復手法は、オプティカル フローを活用して画像空間または特徴空間の参照フレームからのピクセル伝播をガイドすることにより、有望な改善を達成しました。
ただし、マスクされた領域が大きすぎて中心に対応するピクセルが見つからない場合、マスクの中心に深刻なアーティファクトが生成されます。
最近、拡散モデルは多様で高品質の画像を生成する際に優れたパフォーマンスを示しており、画像修復のための多くの作品で活用されています。
ただし、これらの方法をビデオに直接適用して、時間的に一貫した修復結果を生成することはできません。
この論文では、トレーニング データを必要とせず、トレーニング済みの拡散モデルを微調整することなく、逆拡散プロセスで拡散モデルを調整し、時間的コヒーレントな修復結果を生成するための、VipDiff という名前のトレーニング不要のフレームワークを提案します。
VipDiff は、オプティカル フローをガイドとして参照フレームから有効なピクセルを抽出し、ランダムにサンプリングされたガウス ノイズを最適化する際の制約として機能し、生成された結果をさらなるピクセルの伝播と条件付き生成に使用します。
VipDiff を使用すると、さまざまなサンプリングされたノイズに対して多様なビデオ修復結果を生成することもできます。
実験では、VipDiff が時空間コヒーレンスと忠実度の両方の点で最先端のビデオ修復手法を大幅に上回るパフォーマンスを発揮できることが実証されています。

要約(オリジナル)

Recent video inpainting methods have achieved encouraging improvements by leveraging optical flow to guide pixel propagation from reference frames either in the image space or feature space. However, they would produce severe artifacts in the mask center when the masked area is too large and no pixel correspondences can be found for the center. Recently, diffusion models have demonstrated impressive performance in generating diverse and high-quality images, and have been exploited in a number of works for image inpainting. These methods, however, cannot be applied directly to videos to produce temporal-coherent inpainting results. In this paper, we propose a training-free framework, named VipDiff, for conditioning diffusion model on the reverse diffusion process to produce temporal-coherent inpainting results without requiring any training data or fine-tuning the pre-trained diffusion models. VipDiff takes optical flow as guidance to extract valid pixels from reference frames to serve as constraints in optimizing the randomly sampled Gaussian noise, and uses the generated results for further pixel propagation and conditional generation. VipDiff also allows for generating diverse video inpainting results over different sampled noise. Experiments demonstrate that VipDiff can largely outperform state-of-the-art video inpainting methods in terms of both spatial-temporal coherence and fidelity.

arxiv情報

著者 Chaohao Xie,Kai Han,Kwan-Yee K. Wong
発行日 2025-01-21 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク