Towards Smooth Video Composition

要約

ビデオの生成には、一貫性のある永続的なフレームを動的コンテンツと時間の経過とともに合成する必要があります。
この作業では、敵対的生成ネットワーク (GAN) を使用して、数フレームから無限までの任意の長さのビデオを構成するための時間的関係のモデリングを調査します。
まず、隣接するフレームの合成に向けて、単一の画像生成のためのエイリアスのない操作が、十分に事前に学習された知識とともに、フレームごとの品質を損なうことなくスムーズなフレーム遷移をもたらすことを示します。
第二に、もともとビデオの理解のために設計された時間シフト モジュール (TSM) をディスクリミネーターに組み込むことで、より一貫したダイナミクスを合成するジェネレーターを進化させることができます。
第 3 に、新しい B スプライン ベースのモーション表現を開発して、時間的な滑らかさを確保し、無限の長さのビデオ生成を実現します。
トレーニングで使用されるフレーム数を超える可能性があります。
低ランクの時間変調も、長いビデオ生成のコンテンツの繰り返しを軽減するために提案されています。
さまざまなデータセットでアプローチを評価し、ビデオ生成のベースラインを大幅に改善することを示しています。
コードとモデルは、https://genforce.github.io/StyleSV で公開されます。

要約(オリジナル)

Video generation requires synthesizing consistent and persistent frames with dynamic content over time. This work investigates modeling the temporal relations for composing video with arbitrary length, from a few frames to even infinite, using generative adversarial networks (GANs). First, towards composing adjacent frames, we show that the alias-free operation for single image generation, together with adequately pre-learned knowledge, brings a smooth frame transition without compromising the per-frame quality. Second, by incorporating the temporal shift module (TSM), originally designed for video understanding, into the discriminator, we manage to advance the generator in synthesizing more consistent dynamics. Third, we develop a novel B-Spline based motion representation to ensure temporal smoothness to achieve infinite-length video generation. It can go beyond the frame number used in training. A low-rank temporal modulation is also proposed to alleviate repeating contents for long video generation. We evaluate our approach on various datasets and show substantial improvements over video generation baselines. Code and models will be publicly available at https://genforce.github.io/StyleSV.

arxiv情報

著者 Qihang Zhang,Ceyuan Yang,Yujun Shen,Yinghao Xu,Bolei Zhou
発行日 2022-12-14 18:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク