要約
現実世界の屋外環境におけるセマンティックシーン生成のための 3D 拡散モデル「SemCity」を紹介します。
ほとんどの 3D 拡散モデルは、単一のオブジェクト、合成屋内シーン、または合成屋外シーンの生成に焦点を当てていますが、現実世界の屋外シーンの生成はほとんど扱われていません。
この論文では、現実世界の屋外データセットで拡散モデルを学習することで、現実の屋外シーンを生成することに焦点を当てます。
合成データとは対照的に、実際の屋外のデータセットにはセンサーの制限により多くの空きスペースが含まれることが多く、実際の屋外の分布を学習する際に課題が生じます。
この問題に対処するために、拡散モデルによって学習されるシーン分布の代理形式としてトリプレーン表現を利用します。
さらに、トリプレーン拡散モデルとシームレスに統合するトリプレーン操作を提案します。
この操作により、シーンのインペイント、シーンのアウトペイント、セマンティック シーンの完成の改良など、屋外シーンの生成に関連するさまざまな下流タスクにおける拡散モデルの適用性が向上します。
実験結果では、トリプレーン拡散モデルが実際の屋外データセットである SemanticKITTI での既存の研究と比較して意味のある生成結果を示すことを示しています。
また、トリプレーン操作により、シーン内でオブジェクトをシームレスに追加、削除、変更することが容易になることも示します。
さらに、都市レベルのスケールへのシーンの拡張も可能になります。
最後に、拡散モデルがシーン分布を学習することで意味論的シーン補完ネットワークの予測を強化する、意味論的シーン補完の改良に関する手法を評価します。
私たちのコードは https://github.com/zoomin-lee/SemCity で入手できます。
要約(オリジナル)
We present ‘SemCity,’ a 3D diffusion model for semantic scene generation in real-world outdoor environments. Most 3D diffusion models focus on generating a single object, synthetic indoor scenes, or synthetic outdoor scenes, while the generation of real-world outdoor scenes is rarely addressed. In this paper, we concentrate on generating a real-outdoor scene through learning a diffusion model on a real-world outdoor dataset. In contrast to synthetic data, real-outdoor datasets often contain more empty spaces due to sensor limitations, causing challenges in learning real-outdoor distributions. To address this issue, we exploit a triplane representation as a proxy form of scene distributions to be learned by our diffusion model. Furthermore, we propose a triplane manipulation that integrates seamlessly with our triplane diffusion model. The manipulation improves our diffusion model’s applicability in a variety of downstream tasks related to outdoor scene generation such as scene inpainting, scene outpainting, and semantic scene completion refinements. In experimental results, we demonstrate that our triplane diffusion model shows meaningful generation results compared with existing work in a real-outdoor dataset, SemanticKITTI. We also show our triplane manipulation facilitates seamlessly adding, removing, or modifying objects within a scene. Further, it also enables the expansion of scenes toward a city-level scale. Finally, we evaluate our method on semantic scene completion refinements where our diffusion model enhances predictions of semantic scene completion networks by learning scene distribution. Our code is available at https://github.com/zoomin-lee/SemCity.
arxiv情報
著者 | Jumin Lee,Sebin Lee,Changho Jo,Woobin Im,Juhyeong Seon,Sung-Eui Yoon |
発行日 | 2024-03-13 01:34:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google