要約
テキストプロンプトまたは画像から360 {\ deg}パノラマを生成するための新しい方法を紹介します。
私たちのアプローチは、マルチビュー拡散モデルを使用してキューブマップの6つの顔を共同で合成することにより、3D世代の最近の進歩を活用しています。
平等な投影または自己回帰生成の処理に依存する以前の方法とは異なり、私たちの方法は各顔を標準的な視点画像として扱い、生成プロセスを簡素化し、既存のマルチビュー拡散モデルの使用を可能にします。
これらのモデルは、対応する注意レイヤーを必要とせずに高品質のキューブマップを生成するように適応できることを実証します。
私たちのモデルは、微調整されたテキスト制御を可能にし、高解像度のパノラマ画像を生成し、トレーニングセットをはるかに超えて一般化し、定性的および定量的に最先端の結果を達成します。
プロジェクトページ:https://cubediff.github.io/
要約(オリジナル)
We introduce a novel method for generating 360{\deg} panoramas from text prompts or images. Our approach leverages recent advances in 3D generation by employing multi-view diffusion models to jointly synthesize the six faces of a cubemap. Unlike previous methods that rely on processing equirectangular projections or autoregressive generation, our method treats each face as a standard perspective image, simplifying the generation process and enabling the use of existing multi-view diffusion models. We demonstrate that these models can be adapted to produce high-quality cubemaps without requiring correspondence-aware attention layers. Our model allows for fine-grained text control, generates high resolution panorama images and generalizes well beyond its training set, whilst achieving state-of-the-art results, both qualitatively and quantitatively. Project page: https://cubediff.github.io/
arxiv情報
著者 | Nikolai Kalischek,Michael Oechsle,Fabian Manhardt,Philipp Henzler,Konrad Schindler,Federico Tombari |
発行日 | 2025-01-28 18:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google