GenDeF: Learning Generative Deformation Field for Video Generation

要約

私たちは、ビデオ生成のタスクへのアプローチに関して新しい視点を提供します。
一連のフレームを直接合成する代わりに、生成変形フィールド (GenDeF) を使用して 1 つの静止画像をワープすることによってビデオをレンダリングすることを提案します。
このようなパイプラインには 3 つの魅力的な利点があります。
まず、よく訓練された画像ジェネレーターを十分に再利用して静止画像 (カノニカル画像とも呼ばれます) を合成できるため、ビデオを作成する際の困難が軽減され、その結果、視覚的な品質が向上します。
第 2 に、変形フィールドをオプティカル フローに簡単に変換できるため、モーション モデリングに明示的な構造正則化を適用できるようになり、時間的に一貫した結果が得られます。
第三に、コンテンツとモーションの間のもつれが解消されることで、ユーザーは調整を行わずに対応する静止画像を処理することで合成ビデオを処理できるようになり、ビデオ編集、キーポイント追跡、ビデオ セグメンテーションなどの多くのアプリケーションが容易になります。
3 つの一般的なビデオ生成ベンチマークの定性的結果と定量的結果の両方が、GenDeF 手法の優位性を示しています。

要約(オリジナル)

We offer a new perspective on approaching the task of video generation. Instead of directly synthesizing a sequence of frames, we propose to render a video by warping one static image with a generative deformation field (GenDeF). Such a pipeline enjoys three appealing advantages. First, we can sufficiently reuse a well-trained image generator to synthesize the static image (also called canonical image), alleviating the difficulty in producing a video and thereby resulting in better visual quality. Second, we can easily convert a deformation field to optical flows, making it possible to apply explicit structural regularizations for motion modeling, leading to temporally consistent results. Third, the disentanglement between content and motion allows users to process a synthesized video through processing its corresponding static image without any tuning, facilitating many applications like video editing, keypoint tracking, and video segmentation. Both qualitative and quantitative results on three common video generation benchmarks demonstrate the superiority of our GenDeF method.

arxiv情報

著者 Wen Wang,Kecheng Zheng,Qiuyu Wang,Hao Chen,Zifan Shi,Ceyuan Yang,Yujun Shen,Chunhua Shen
発行日 2023-12-07 18:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク