DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion

要約

拡散ベースの手法は、2D 画像や 3D オブジェクトの生成において目覚ましい成果を上げていますが、シーン データセットの数が限られていることや 3D シーンの複雑さのため、3D シーンや $360^{\circ}$ 画像の生成には依然として制約が残っています。
それ自体、一貫した多視点画像を生成することの難しさ。
これらの問題に対処するために、まず、対応するパノラマ深度、カメラポーズ、およびテキスト説明を備えた数百万の連続したパノラマキーフレームを含む大規模なパノラマビデオテキストデータセットを確立します。
次に、スケーラブルで一貫性のある多様なパノラマ シーンの生成を実現するために、DiffPano と呼ばれる新しいテキスト駆動のパノラマ生成フレームワークを提案します。
具体的には、安定した拡散の強力な生成機能の恩恵を受けて、確立されたパノラマ ビデオ テキスト データセット上で LoRA を使用してシングルビューのテキストからパノラマへの拡散モデルを微調整します。
さらに、生成されたパノラマ画像の多視点の一貫性を確保するために、球面エピポーラを認識した多視点拡散モデルを設計します。
広範な実験により、DiffPano が、与えられた目に見えないテキストの説明とカメラのポーズを使用して、スケーラブルで一貫性のある多様なパノラマ画像を生成できることが実証されました。

要約(オリジナル)

Diffusion-based methods have achieved remarkable achievements in 2D image or 3D object generation, however, the generation of 3D scenes and even $360^{\circ}$ images remains constrained, due to the limited number of scene datasets, the complexity of 3D scenes themselves, and the difficulty of generating consistent multi-view images. To address these issues, we first establish a large-scale panoramic video-text dataset containing millions of consecutive panoramic keyframes with corresponding panoramic depths, camera poses, and text descriptions. Then, we propose a novel text-driven panoramic generation framework, termed DiffPano, to achieve scalable, consistent, and diverse panoramic scene generation. Specifically, benefiting from the powerful generative capabilities of stable diffusion, we fine-tune a single-view text-to-panorama diffusion model with LoRA on the established panoramic video-text dataset. We further design a spherical epipolar-aware multi-view diffusion model to ensure the multi-view consistency of the generated panoramic images. Extensive experiments demonstrate that DiffPano can generate scalable, consistent, and diverse panoramic images with given unseen text descriptions and camera poses.

arxiv情報

著者 Weicai Ye,Chenhao Ji,Zheng Chen,Junyao Gao,Xiaoshui Huang,Song-Hai Zhang,Wanli Ouyang,Tong He,Cairong Zhao,Guofeng Zhang
発行日 2024-10-31 17:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO パーマリンク