StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart

要約

人間の両眼視を模倣した高品質のステレオ ビデオを生成するには、フレーム全体で一貫した奥行き知覚と時間的一貫性を維持する必要があります。
拡散モデルは高度な画像とビデオの合成を備えていますが、左右のビューの間で一貫した時間的および空間的なコヒーレンスを維持することが難しいため、高品質のステレオ ビデオを生成することは依然として困難です。
\textit{StereoCrafter-Zero} を紹介します。これは、ペアのトレーニング データを必要とせずにビデオ拡散事前分布を活用する、ゼロショット ステレオ ビデオ生成のための新しいフレームワークです。
主な革新には、ステレオ認識の潜在を初期化するノイズの多い再起動戦略と、潜在空間を段階的に調和させ、一時的なちらつきや表示の不一致などの問題に対処する反復的改善プロセスが含まれます。
定量的メトリクスやユーザー調査を含む包括的な評価により、\textit{StereoCrafter-Zero} は、深度推定が不完全な場合でも、深度の一貫性と時間的滑らかさが改善された高品質のステレオ ビデオを生成することが実証されています。
当社のフレームワークは堅牢でさまざまな拡散モデルに適応可能で、ゼロショット ステレオ ビデオ生成の新しいベンチマークを設定し、より没入型の視覚体験を可能にします。
私たちのコードは~\url{https://github.com/shijianjian/StereoCrafter-Zero}にあります。

要約(オリジナル)

Generating high-quality stereo videos that mimic human binocular vision requires maintaining consistent depth perception and temporal coherence across frames. While diffusion models have advanced image and video synthesis, generating high-quality stereo videos remains challenging due to the difficulty of maintaining consistent temporal and spatial coherence between left and right views. We introduce \textit{StereoCrafter-Zero}, a novel framework for zero-shot stereo video generation that leverages video diffusion priors without the need for paired training data. Key innovations include a noisy restart strategy to initialize stereo-aware latents and an iterative refinement process that progressively harmonizes the latent space, addressing issues like temporal flickering and view inconsistencies. Comprehensive evaluations, including quantitative metrics and user studies, demonstrate that \textit{StereoCrafter-Zero} produces high-quality stereo videos with improved depth consistency and temporal smoothness, even when depth estimations are imperfect. Our framework is robust and adaptable across various diffusion models, setting a new benchmark for zero-shot stereo video generation and enabling more immersive visual experiences. Our code can be found in~\url{https://github.com/shijianjian/StereoCrafter-Zero}.

arxiv情報

著者 Jian Shi,Qian Wang,Zhenyu Li,Peter Wonka
発行日 2024-11-21 16:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク