Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation

要約

ビデオの複雑な高次元性と複雑さのため、望ましいリアルなコンテンツを合成する高品質ビデオを生成することは困難な作業です。
最近のいくつかの拡散ベースの手法は、従来のビデオ オートエンコーダ アーキテクチャを使用してビデオを低次元の潜在空間に圧縮することにより、同等のパフォーマンスを示しています。
しかし、標準的なフレーム単位の 2D および 3D 畳み込みを使用するこのような方法では、ビデオの時空間的性質を十分に活用できません。
この問題に対処するために、時空間依存性をより効果的に捉えることができる、HVDM と呼ばれる新しいハイブリッド ビデオ拡散モデルを提案します。
HVDM は、ハイブリッド ビデオ オートエンコーダによってトレーニングされます。このオートエンコーダは、(i) 2D 投影された潜在によってキャプチャされたグローバル コンテキスト情報 (ii) ウェーブレット分解による 3D 畳み込みによってキャプチャされたローカル ボリューム情報 (iii)
ビデオ再構成を改善するための周波数情報。
この解きほぐされた表現に基づいて、当社のハイブリッド オートエンコーダーは、生成されたビデオを微細な構造と詳細で強化する、より包括的なビデオ潜在力を提供します。
ビデオ生成ベンチマーク (UCF101、SkyTimelapse、および TaiChi) の実験では、提案されたアプローチが最先端のビデオ生成品質を達成し、幅広いビデオ アプリケーション (例: 長時間ビデオ生成、画像からビデオへの変換、
およびビデオダイナミクス制御)。

要約(オリジナル)

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such method that employ standard frame-wise 2D and 3D convolution fail to fully exploit the spatio-temporal nature of videos. To address this issue, we propose a novel hybrid video diffusion model, called HVDM, which can capture spatio-temporal dependencies more effectively. The HVDM is trained by a hybrid video autoencoder which extracts a disentangled representation of the video including: (i) a global context information captured by a 2D projected latent (ii) a local volume information captured by 3D convolutions with wavelet decomposition (iii) a frequency information for improving the video reconstruction. Based on this disentangled representation, our hybrid autoencoder provide a more comprehensive video latent enriching the generated videos with fine structures and details. Experiments on video generation benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed approach achieves state-of-the-art video generation quality, showing a wide range of video applications (e.g., long video generation, image-to-video, and video dynamics control).

arxiv情報

著者 Kihong Kim,Haneol Lee,Jihye Park,Seyeon Kim,Kwanghee Lee,Seungryong Kim,Jaejun Yoo
発行日 2024-02-21 11:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク