Taming Stable Diffusion for Text to 360° Panorama Image Generation

要約

安定拡散などの生成モデルにより、テキスト プロンプトからフォトリアリスティックな画像を作成できるようになりました。
しかし、テキストから 360 度のパノラマ画像を生成することは、特にテキストとパノラマのペアのデータが不足していることと、パノラマ画像と透視画像の間の領域のギャップにより、依然として課題が残っています。
この論文では、テキスト プロンプトから 360 度の画像を生成する、PanFusion という名前の新しいデュアル ブランチ拡散モデルを紹介します。
安定拡散モデルを 1 つのブランチとして活用して、自然画像生成における事前知識を提供し、それを全体的な画像生成のために別のパノラマ ブランチに登録します。
私たちは、共同ノイズ除去プロセス中の歪みを最小限に抑えるために、投影認識を備えた独自のクロスアテンション メカニズムを提案します。
私たちの実験では、PanFusion が既存の手法を超え、そのデュアル ブランチ構造のおかげで、カスタマイズされたパノラマ出力のための部屋のレイアウトなどの追加の制約を統合できることが検証されました。
コードは https://chengzhag.github.io/publication/panfusion で入手できます。

要約(オリジナル)

Generative models, e.g., Stable Diffusion, have enabled the creation of photorealistic images from text prompts. Yet, the generation of 360-degree panorama images from text remains a challenge, particularly due to the dearth of paired text-panorama data and the domain gap between panorama and perspective images. In this paper, we introduce a novel dual-branch diffusion model named PanFusion to generate a 360-degree image from a text prompt. We leverage the stable diffusion model as one branch to provide prior knowledge in natural image generation and register it to another panorama branch for holistic image generation. We propose a unique cross-attention mechanism with projection awareness to minimize distortion during the collaborative denoising process. Our experiments validate that PanFusion surpasses existing methods and, thanks to its dual-branch structure, can integrate additional constraints like room layout for customized panorama outputs. Code is available at https://chengzhag.github.io/publication/panfusion.

arxiv情報

著者 Cheng Zhang,Qianyi Wu,Camilo Cruz Gambardella,Xiaoshui Huang,Dinh Phung,Wanli Ouyang,Jianfei Cai
発行日 2024-04-11 17:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク