Generalizable Implicit Motion Modeling for Video Frame Interpolation

要約

モーションモデリングは、フローベースのビデオフレーム補間(VFI)で重要です。
既存のパラダイムは、双方向の流れの線形組み合わせを考慮するか、好ましい運動前を探索することなく、与えられたタイムスタンプの両側の流れを直接予測するため、実際のビデオで時空間ダイナミクスを効果的にモデル化する能力が欠けています。
この制限に対処するために、この研究では、VFIのモーションモデリングへの斬新かつ効果的なアプローチである一般化可能な暗黙的モーションモデリング(GIMM)を紹介します。
具体的には、GIMMを効果的なモーションモデリングパラダイムとして有効にするために、事前に訓練された流量推定器から抽出された双方向フローから潜在的な時空間運動をモデル化するパイプラインをコードする動きを設計し、入力固有の動きを効果的に表します。
次に、時空間座標と動きが入力として潜在的な潜在的な座標ベースのニューラルネットワークを介して、2つの隣接する入力フレーム内の任意のティメステップ光学フローを暗黙的に予測します。
私たちのGIMMは、正確にモデル化された動きを提供することにより、既存のフローベースのVFI作業と簡単に統合できます。
GIMMは、標準のVFIベンチマーク上の現在の最新のアートよりも優れていることを示しています。

要約(オリジナル)

Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be easily integrated with existing flow-based VFI works by supplying accurately modeled motion. We show that GIMM performs better than the current state of the art on standard VFI benchmarks.

arxiv情報

著者 Zujin Guo,Wei Li,Chen Change Loy
発行日 2025-02-10 16:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク