Motion-aware Latent Diffusion Models for Video Frame Interpolation

要約

AIGC の進歩により、ビデオ フレーム補間 (VFI) は既存のビデオ生成フレームワークの重要なコンポーネントとなり、幅広い研究の関心を集めています。
VFI タスクの場合、隣接するフレーム間の動き推定は動きの曖昧さを回避する上で重要な役割を果たします。
しかし、既存の VFI 手法は、連続するフレーム間の動き情報を正確に予測するのに常に苦労しており、この不正確な推定により、補間フレームがぼやけて視覚的に一貫性のないものになってしまいます。
この論文では、特に VFI タスク用に設計された新しい拡散フレームワークであるモーション認識潜在拡散モデル (MADiff) を提案します。
拡散サンプリング手順全体を通じて予測されるターゲット補間フレームを使用して、条件付き隣接フレーム間にモーション事前分布を組み込むことにより、MADiff は中間結果を徐々に改良し、最終的に視覚的に滑らかで現実的な結果の両方を生成します。
ベンチマーク データセットに対して行われた広範な実験により、特に複雑な動きを伴う動的テクスチャを含む困難なシナリオにおいて、私たちの手法が既存のアプローチを大幅に上回る最先端のパフォーマンスを達成できることが実証されました。

要約(オリジナル)

With the advancement of AIGC, video frame interpolation (VFI) has become a crucial component in existing video generation frameworks, attracting widespread research interest. For the VFI task, the motion estimation between neighboring frames plays a crucial role in avoiding motion ambiguity. However, existing VFI methods always struggle to accurately predict the motion information between consecutive frames, and this imprecise estimation leads to blurred and visually incoherent interpolated frames. In this paper, we propose a novel diffusion framework, motion-aware latent diffusion models (MADiff), which is specifically designed for the VFI task. By incorporating motion priors between the conditional neighboring frames with the target interpolated frame predicted throughout the diffusion sampling procedure, MADiff progressively refines the intermediate outcomes, culminating in generating both visually smooth and realistic results. Extensive experiments conducted on benchmark datasets demonstrate that our method achieves state-of-the-art performance significantly outperforming existing approaches, especially under challenging scenarios involving dynamic textures with complex motion.

arxiv情報

著者 Zhilin Huang,Yijie Yu,Ling Yang,Chujun Qin,Bing Zheng,Xiawu Zheng,Zikun Zhou,Yaowei Wang,Wenming Yang
発行日 2024-06-04 15:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク