要約
この論文では、城から高層ビルまでの広大な屋外シーンを生成するタスクを探ります。
以前の作業の主な焦点である屋内シーンの生成とは異なり、アウトドアシーンの世代は、シーンハイツの幅広いバリエーションや、急速に大きな風景を生み出すことができる方法の必要性など、ユニークな課題を提示します。
これに対処するために、シーンのチャンクを均一なベクトルセットとしてコードする効率的なアプローチを提案し、以前の方法で使用される空間的に構造化された潜在性よりも優れた圧縮と性能を提供します。
さらに、未結合の世代のための明示的な塗装モデルを訓練します。これは、以前の再サンプリングベースのインペインティングスキームと比較してコヒーレンスを改善し、追加の拡散ステップを排除することで生成を高速化します。
このタスクを容易にするために、共同トレーニングのために前処理された、小規模だが高品質のシーンセットであるNuiscene43をキュレートします。
特に、さまざまなスタイルのシーンで訓練された場合、私たちのモデルは、同じシーン内で、田舎の家や都市の高層ビルなどのさまざまな環境をブレンドし、共同トレーニングのために不均一なシーンを活用するキュレーションプロセスの可能性を強調することができます。
要約(オリジナル)
In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.
arxiv情報
著者 | Han-Hung Lee,Qinghong Han,Angel X. Chang |
発行日 | 2025-03-20 17:37:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google