要約
パノラマ画像生成の最近の進歩は、既存のアプローチにおける2つの重要な制限を強調しています。
第一に、ほとんどの方法は拡散モデルに基づいて構築されます。拡散モデルは、球状マッピングによって引き起こされる(i.i.d.)ガウスノイズの仮定の違反により、本質的に等間投影(ERP)パノラマに不適切です。
第二に、これらの方法はしばしば、テキスト条件付きの世代(テキストからパノラマ)と画像コンディショナルの生成(パノラマの中断)を別々のタスクとして扱い、異なるアーキテクチャとタスク固有のデータに依存します。
この作業では、統一されたフレームワークであるパノラマオートレーリングモデル(PAR)を提案します。これは、これらの課題に対処するためにマスクされた自己回帰モデリングを活用します。
PARはI.I.Dを回避します。
仮定の制約とテキストと画像の条件付けをまとまりのあるアーキテクチャに統合し、タスク全体でシームレスな生成を可能にします。
既存の生成モデルに固有の不連続性に対処するために、円形のパディングを導入して空間的一貫性を高め、生成品質を改善するための一貫性アライメント戦略を提案します。
広範な実験は、テキストからイメージの生成、およびパノラマがタスクを上回る競争力を示し、有望なスケーラビリティと一般化能力を紹介します。
要約(オリジナル)
Recent progress in panoramic image generation has underscored two critical limitations in existing approaches. First, most methods are built upon diffusion models, which are inherently ill-suited for equirectangular projection (ERP) panoramas due to the violation of the identically and independently distributed (i.i.d.) Gaussian noise assumption caused by their spherical mapping. Second, these methods often treat text-conditioned generation (text-to-panorama) and image-conditioned generation (panorama outpainting) as separate tasks, relying on distinct architectures and task-specific data. In this work, we propose a unified framework, Panoramic AutoRegressive model (PAR), which leverages masked autoregressive modeling to address these challenges. PAR avoids the i.i.d. assumption constraint and integrates text and image conditioning into a cohesive architecture, enabling seamless generation across tasks. To address the inherent discontinuity in existing generative models, we introduce circular padding to enhance spatial coherence and propose a consistency alignment strategy to improve generation quality. Extensive experiments demonstrate competitive performance in text-to-image generation and panorama outpainting tasks while showcasing promising scalability and generalization capabilities.
arxiv情報
著者 | Chaoyang Wang,Xiangtai Li,Lu Qi,Xiaofan Lin,Jinbin Bai,Qianyu Zhou,Yunhai Tong |
発行日 | 2025-05-22 16:20:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google