StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

要約

この論文では、没入型体験における 3D コンテンツの需要の高まりに対応し、2D ビデオを没入型立体 3D に変換するための新しいフレームワークを紹介します。
従来の基礎モデルを活用することで、当社のアプローチは従来の方法の制限を克服し、パフォーマンスを向上させて、表示デバイスに必要な高忠実度の生成を保証します。
提案されたシステムは、オクルージョン マスクをワーピングおよび抽出するための深度ベースのビデオ スプラッティングと、ステレオ ビデオの修復という 2 つの主要なステップで構成されます。
事前にトレーニングされた安定したビデオ拡散をバックボーンとして利用し、ステレオ ビデオ修復タスク用の微調整プロトコルを導入します。
さまざまな長さと解像度の入力ビデオを処理するために、自動回帰戦略とタイル処理を検討します。
最後に、トレーニングをサポートするために大規模で高品質のデータセットを再構築するための高度なデータ処理パイプラインが開発されました。
私たちのフレームワークは、2D から 3D ビデオ変換における大幅な改善を実証し、Apple Vision Pro や 3D ディスプレイなどの 3D デバイス向けの没入型コンテンツを作成するための実用的なソリューションを提供します。
要約すると、この研究は、単眼入力から高品質の立体ビデオを生成する効果的な方法を提示することでこの分野に貢献し、デジタル メディアの体験方法を変える可能性があります。

要約(オリジナル)

This paper presents a novel framework for converting 2D videos to immersive stereoscopic 3D, addressing the growing demand for 3D content in immersive experience. Leveraging foundation models as priors, our approach overcomes the limitations of traditional methods and boosts the performance to ensure the high-fidelity generation required by the display devices. The proposed system consists of two main steps: depth-based video splatting for warping and extracting occlusion mask, and stereo video inpainting. We utilize pre-trained stable video diffusion as the backbone and introduce a fine-tuning protocol for the stereo video inpainting task. To handle input video with varying lengths and resolutions, we explore auto-regressive strategies and tiled processing. Finally, a sophisticated data processing pipeline has been developed to reconstruct a large-scale and high-quality dataset to support our training. Our framework demonstrates significant improvements in 2D-to-3D video conversion, offering a practical solution for creating immersive content for 3D devices like Apple Vision Pro and 3D displays. In summary, this work contributes to the field by presenting an effective method for generating high-quality stereoscopic videos from monocular input, potentially transforming how we experience digital media.

arxiv情報

著者 Sijie Zhao,Wenbo Hu,Xiaodong Cun,Yong Zhang,Xiaoyu Li,Zhe Kong,Xiangjun Gao,Muyao Niu,Ying Shan
発行日 2024-09-11 17:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.3.0 パーマリンク