COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation

要約

ビデオは一貫して動くオブジェクトを記録するため、隣接するビデオ フレームには共通性 (オブジェクトの外観が類似していること) と独自性 (姿勢がわずかに変化していること) があります。
一般的なビデオ信号の冗長なモデリングを防ぐために、COMMON と UNIque ビデオ信号を分解して効率的なビデオ生成を可能にする、COMUNI という名前の新しい拡散ベースのフレームワークを提案します。
私たちのアプローチでは、ビデオ信号の分解をビデオ生成のタスクから分離するため、生成モデルの計算の複雑さが軽減されます。
特に、ビデオ信号を分解し、潜在的な特徴にエンコードする CU-VAE を導入します。
CU-VAE を自己監視型でトレーニングするために、カスケード マージ モジュールを使用してビデオ信号を再構成し、時間に依存しないビデオ デコーダーを使用してビデオ フレームを再構成します。
次に、ビデオ生成のための潜在特徴をモデル化する CU-LDM を提案します。これは、2 つの特定の拡散ストリームを採用して、共通および固有の潜在特徴を同時にモデル化します。
さらに、共通および固有の潜在特徴のクロスモデリングのための追加のジョイント モジュールと、生成されたビデオのコンテンツの一貫性と動きの一貫性を確保するための新しい位置埋め込み方法を利用します。
位置埋め込み法では、空間的および時間的な絶対位置情報がジョイント モジュールに組み込まれます。
広範な実験により、ビデオ生成のために共通および固有のビデオ信号を分解する必要性と、提案した方法の有効性と効率性が実証されました。

要約(オリジナル)

Since videos record objects moving coherently, adjacent video frames have commonness (similar object appearances) and uniqueness (slightly changed postures). To prevent redundant modeling of common video signals, we propose a novel diffusion-based framework, named COMUNI, which decomposes the COMmon and UNIque video signals to enable efficient video generation. Our approach separates the decomposition of video signals from the task of video generation, thus reducing the computation complexity of generative models. In particular, we introduce CU-VAE to decompose video signals and encode them into latent features. To train CU-VAE in a self-supervised manner, we employ a cascading merge module to reconstitute video signals and a time-agnostic video decoder to reconstruct video frames. Then we propose CU-LDM to model latent features for video generation, which adopts two specific diffusion streams to simultaneously model the common and unique latent features. We further utilize additional joint modules for cross modeling of the common and unique latent features, and a novel position embedding method to ensure the content consistency and motion coherence of generated videos. The position embedding method incorporates spatial and temporal absolute position information into the joint modules. Extensive experiments demonstrate the necessity of decomposing common and unique video signals for video generation and the effectiveness and efficiency of our proposed method.

arxiv情報

著者 Mingzhen Sun,Weining Wang,Xinxin Zhu,Jing Liu
発行日 2024-10-02 16:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク