Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation

要約

本論文では、Video Latent Flow Matching (VLFM)と呼ばれる効率的な映像モデリングプロセスを考察する。ビデオ生成のために潜在パッチをランダムにサンプリングする先行研究とは異なり、本手法は、時間依存のビデオフレームにデコード可能な潜在パッチの特定のキャプション誘導フローをモデル化し、現在の強力な事前訓練された画像生成モデルに依存する。我々はまず、ビデオの複数の画像が、ある潜在空間において時間に関して微分可能であると推測する。この推測に基づき、確率経路を生成する多項式の最適射影を近似するHiPPOフレームワークを導入する。我々のアプローチは、有界普遍近似誤差とタイムスケール頑健性という理論的利点を得る。さらに、VLFMは任意のフレームレートを持つビデオ生成のための補間と補外の能力を処理する。本手法の有効性を示すために、いくつかのテキストからビデオへのデータセットで実験を行う。

要約(オリジナル)

This paper considers an efficient video modeling process called Video Latent Flow Matching (VLFM). Unlike prior works, which randomly sampled latent patches for video generation, our method relies on current strong pre-trained image generation models, modeling a certain caption-guided flow of latent patches that can be decoded to time-dependent video frames. We first speculate multiple images of a video are differentiable with respect to time in some latent space. Based on this conjecture, we introduce the HiPPO framework to approximate the optimal projection for polynomials to generate the probability path. Our approach gains the theoretical benefits of the bounded universal approximation error and timescale robustness. Moreover, VLFM processes the interpolation and extrapolation abilities for video generation with arbitrary frame rates. We conduct experiments on several text-to-video datasets to showcase the effectiveness of our method.

arxiv情報

著者 Yang Cao,Zhao Song,Chiwun Yang
発行日 2025-02-04 15:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク