4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

要約

私たちは、時間軸と視点軸の両方を持つビデオ フレームのグリッドとして編成された 4D ビデオを生成するための新しいフレームワークである 4Real-Video を提案します。
このグリッドでは、各行には同じタイムステップを共有するフレームが含まれ、各列には同じ視点からのフレームが含まれます。
私たちは新しい 2 ストリーム アーキテクチャを提案します。
1 つのストリームは列の視点更新を実行し、もう 1 つのストリームは行の時間更新を実行します。
各拡散変換層の後に、同期層が 2 つのトークン ストリーム間で情報を交換します。
ハード同期またはソフト同期を使用する、同期層の 2 つの実装を提案します。
このフィードフォワード アーキテクチャは、推論速度の高速化、ビジュアル品質の向上 (FVD、CLIP、および VideoScore によって測定)、時間的および視点の一貫性の向上 (VideoScore および Dust3R-Confidence によって測定) という 3 つの点で以前の研究を改善しています。

要約(オリジナル)

We propose 4Real-Video, a novel framework for generating 4D videos, organized as a grid of video frames with both time and viewpoint axes. In this grid, each row contains frames sharing the same timestep, while each column contains frames from the same viewpoint. We propose a novel two-stream architecture. One stream performs viewpoint updates on columns, and the other stream performs temporal updates on rows. After each diffusion transformer layer, a synchronization layer exchanges information between the two token streams. We propose two implementations of the synchronization layer, using either hard or soft synchronization. This feedforward architecture improves upon previous work in three ways: higher inference speed, enhanced visual quality (measured by FVD, CLIP, and VideoScore), and improved temporal and viewpoint consistency (measured by VideoScore and Dust3R-Confidence).

arxiv情報

著者 Chaoyang Wang,Peiye Zhuang,Tuan Duc Ngo,Willi Menapace,Aliaksandr Siarohin,Michael Vasilkovsky,Ivan Skorokhodov,Sergey Tulyakov,Peter Wonka,Hsin-Ying Lee
発行日 2024-12-05 18:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク