Motion-aware Latent Diffusion Models for Video Frame Interpolation

要約

AIGCの進歩に伴い、ビデオフレーム補間(Video Frame Interpolation:VFI)は、既存のビデオ生成フレームワークにおける重要なコンポーネントとなり、広く研究者の関心を集めている。VFIタスクでは、隣接フレーム間の動き推定が、動きのあいまいさを回避する上で重要な役割を果たす。しかし、既存のVFI手法は、連続するフレーム間の動き情報を正確に予測することに常に苦労しており、この不正確な推定は、不鮮明で視覚的に支離滅裂な補間フレームにつながる。本論文では、VFIタスクのために特別に設計された新しい拡散フレームワーク、動き考慮潜在拡散モデル(MADiff)を提案する。拡散サンプリング手順全体を通して予測されるターゲット補間フレームと条件付き近傍フレーム間の動き事前分布を組み込むことにより、MADiffは中間結果を漸進的に洗練し、最終的に視覚的に滑らかで現実的な結果を生成する。ベンチマークデータセットを用いた広範な実験により、我々の手法は、特に複雑な動きを伴う動的テクスチャを含む困難なシナリオにおいて、既存のアプローチを大幅に上回る最先端の性能を達成することが実証された。

要約(オリジナル)

With the advancement of AIGC, video frame interpolation (VFI) has become a crucial component in existing video generation frameworks, attracting widespread research interest. For the VFI task, the motion estimation between neighboring frames plays a crucial role in avoiding motion ambiguity. However, existing VFI methods always struggle to accurately predict the motion information between consecutive frames, and this imprecise estimation leads to blurred and visually incoherent interpolated frames. In this paper, we propose a novel diffusion framework, motion-aware latent diffusion models (MADiff), which is specifically designed for the VFI task. By incorporating motion priors between the conditional neighboring frames with the target interpolated frame predicted throughout the diffusion sampling procedure, MADiff progressively refines the intermediate outcomes, culminating in generating both visually smooth and realistic results. Extensive experiments conducted on benchmark datasets demonstrate that our method achieves state-of-the-art performance significantly outperforming existing approaches, especially under challenging scenarios involving dynamic textures with complex motion.

arxiv情報

著者 Zhilin Huang,Yijie Yu,Ling Yang,Chujun Qin,Bing Zheng,Xiawu Zheng,Zikun Zhou,Yaowei Wang,Wenming Yang
発行日 2024-08-02 16:14:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク