Generalizable Implicit Motion Modeling for Video Frame Interpolation

要約

モーション モデリングは、フローベースのビデオ フレーム補間 (VFI) において重要です。
既存のパラダイムは、双方向フローの線形結合を考慮するか、好ましいモーション事前分布を探索せずに特定のタイムスタンプの双方向フローを直接予測するため、現実世界のビデオにおける時空間ダイナミクスを効果的にモデル化する機能が不足しています。
この制限に対処するために、この研究では、VFI のモーション モデリングに対する斬新で効果的なアプローチである Generalizable Implicit Motion Modeling (GIMM) を導入します。
具体的には、GIMM を効果的なモーション モデリング パラダイムとして有効にするために、事前トレーニングされたフロー推定器から抽出された双方向フローから潜在する時空間モーションをモデル化するモーション エンコード パイプラインを設計し、入力固有のモーション事前分布を効果的に表現します。
次に、時空間座標と潜在運動を入力として、適応座標ベースのニューラル ネットワークを介して、2 つの隣接する入力フレーム内の任意のタイムステップのオプティカル フローを暗黙的に予測します。
当社の GIMM は、追加の変更を加えることなく、既存のフローベースの VFI 作品とスムーズに統合できます。
VFI ベンチマークでは、GIMM が現在の最新技術よりも優れたパフォーマンスを示します。

要約(オリジナル)

Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.

arxiv情報

著者 Zujin Guo,Wei Li,Chen Change Loy
発行日 2024-07-11 17:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク