RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks

要約

長期的な空間的および時間的依存関係に対処するために設計された、新しい無条件ビデオ生成モデルを紹介します。
これらの依存関係を捉えるために、私たちのアプローチには、3 次元オブジェクト表現用に開発された 3D 対応の生成フレームワークに触発された、明示的および暗黙的なハイブリッド トライプレーン表現が組み込まれており、ビデオ シーケンス全体をモデル化するために単一の潜在コードが採用されています。
次に、個々のビデオ フレームが中間トライプレーン表現から合成されます。中間トライプレーン表現自体は、一次潜在コードから派生します。
この新しい戦略により、計算の複雑さが FLOP で測定して 2 分の 1 に削減されます。
その結果、私たちのアプローチは、効率的かつ時間的に一貫したビデオの生成を容易にします。
さらに、私たちの関節フレーム モデリング アプローチは、自己回帰手法とは対照的に、視覚的なアーティファクトの生成を軽減します。
オプティカル フロー ベースのモジュールを敵対的生成ネットワーク (GAN) ベースのジェネレーター アーキテクチャ内に統合することでモデルの機能をさらに強化し、それによってジェネレーターのサイズが小さいことによる制約を補います。
その結果、私たちのモデルは、$256\times256$ ピクセルの解像度で高忠実度のビデオ クリップを合成でき、持続時間は 30 fps のフレーム レートで $5$ 秒を超えます。
私たちのアプローチの有効性と多用途性は、合成ビデオ クリップと実際のビデオ クリップの両方を含む 3 つの異なるデータセットにわたる定性的および定量的評価を通じて経験的に検証されています。

要約(オリジナル)

We present a novel unconditional video generative model designed to address long-term spatial and temporal dependencies. To capture these dependencies, our approach incorporates a hybrid explicit-implicit tri-plane representation inspired by 3D-aware generative frameworks developed for three-dimensional object representation and employs a singular latent code to model an entire video sequence. Individual video frames are then synthesized from an intermediate tri-plane representation, which itself is derived from the primary latent code. This novel strategy reduces computational complexity by a factor of $2$ as measured in FLOPs. Consequently, our approach facilitates the efficient and temporally coherent generation of videos. Moreover, our joint frame modeling approach, in contrast to autoregressive methods, mitigates the generation of visual artifacts. We further enhance the model’s capabilities by integrating an optical flow-based module within our Generative Adversarial Network (GAN) based generator architecture, thereby compensating for the constraints imposed by a smaller generator size. As a result, our model is capable of synthesizing high-fidelity video clips at a resolution of $256\times256$ pixels, with durations extending to more than $5$ seconds at a frame rate of 30 fps. The efficacy and versatility of our approach are empirically validated through qualitative and quantitative assessments across three different datasets comprising both synthetic and real video clips.

arxiv情報

著者 Partha Ghosh,Soubhik Sanyal,Cordelia Schmid,Bernhard Schölkopf
発行日 2024-01-11 16:48:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク