StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation

要約

無条件のビデオ生成は、一貫性があり、再生時間の長い高品質ビデオを合成することを伴う、困難なタスクです。
この課題に対処するために、研究者らは高品質のフレーム合成に事前トレーニング済みの StyleGAN 画像ジェネレーターを使用し、モーション ジェネレーターの設計に焦点を当てました。
モーション ジェネレーターは、ビデオ生成中のモーションの一貫性を確保するために、重い 3D 畳み込み弁別器を使用して自己回帰的な方法でトレーニングされます。
この論文では、GAN の学習ベースの反転ネットワークを使用する新しいモーション ジェネレーターの設計を紹介します。
我々の手法のエンコーダは、画像のエンコードからレイテントまでの豊富で滑らかな事前情報をキャプチャし、最初に生成されたフレームのレイテントをガイダンスとして与えると、我々の手法は反転エンコーダを時間的に変調することによって滑らかな将来のレイテントを生成できます。
私たちの方法はスパーストレーニングの利点を享受しており、初期フレームによって導かれる反転ネットワークでモーションジェネレーターの生成空間を自然に制約し、重いディスクリミネーターの必要性を排除します。
さらに、私たちのメソッドは、エンコーダーが事前トレーニング済みの StyleGAN ジェネレーターとペアになっている場合、簡単な微調整によるスタイル転送をサポートします。
さまざまなベンチマークで行われた広範な実験により、適切な単一フレーム品質と時間的一貫性を備えた長時間の高解像度ビデオを生成する際の私たちの方法の優位性が実証されました。

要約(オリジナル)

Unconditional video generation is a challenging task that involves synthesizing high-quality videos that are both coherent and of extended duration. To address this challenge, researchers have used pretrained StyleGAN image generators for high-quality frame synthesis and focused on motion generator design. The motion generator is trained in an autoregressive manner using heavy 3D convolutional discriminators to ensure motion coherence during video generation. In this paper, we introduce a novel motion generator design that uses a learning-based inversion network for GAN. The encoder in our method captures rich and smooth priors from encoding images to latents, and given the latent of an initially generated frame as guidance, our method can generate smooth future latent by modulating the inversion encoder temporally. Our method enjoys the advantage of sparse training and naturally constrains the generation space of our motion generator with the inversion network guided by the initial frame, eliminating the need for heavy discriminators. Moreover, our method supports style transfer with simple fine-tuning when the encoder is paired with a pretrained StyleGAN generator. Extensive experiments conducted on various benchmarks demonstrate the superiority of our method in generating long and high-resolution videos with decent single-frame quality and temporal consistency.

arxiv情報

著者 Yuhan Wang,Liming Jiang,Chen Change Loy
発行日 2023-08-31 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク