要約
衛星画像からシーンを直接生成すると、ゲームやマップ サービスなどのアプリケーションに統合できる素晴らしい可能性が得られます。
ただし、ビューの大幅な変更やシーンのスケールによって課題が発生します。
これまでの取り組みは主に画像またはビデオの生成に焦点を当てており、任意のビューに対するシーン生成の適応性についての検討が不足していました。
既存の 3D 生成作業は、オブジェクト レベルで動作するか、衛星画像から取得したジオメトリを利用することが困難です。
これらの制限を克服するために、拡散モデルを 3D スパース表現に導入し、それらをニューラル レンダリング技術と組み合わせることで、直接 3D シーンを生成するための新しいアーキテクチャを提案します。
具体的には、私たちのアプローチでは、最初に 3D 拡散モデルを使用して特定のジオメトリのポイント レベルでテクスチャ カラーを生成し、次にフィードフォワード方式でシーン表現に変換します。
この表現を利用して、単一フレームの品質とフレーム間の一貫性の両方で優れた任意のビューをレンダリングできます。
2 つの都市スケールのデータセットでの実験では、私たちのモデルが衛星画像から写真のようにリアルなストリートビュー画像シーケンスとクロスビューの都市シーンを生成する能力を実証していることが示されています。
要約(オリジナル)
Directly generating scenes from satellite imagery offers exciting possibilities for integration into applications like games and map services. However, challenges arise from significant view changes and scene scale. Previous efforts mainly focused on image or video generation, lacking exploration into the adaptability of scene generation for arbitrary views. Existing 3D generation works either operate at the object level or are difficult to utilize the geometry obtained from satellite imagery. To overcome these limitations, we propose a novel architecture for direct 3D scene generation by introducing diffusion models into 3D sparse representations and combining them with neural rendering techniques. Specifically, our approach generates texture colors at the point level for a given geometry using a 3D diffusion model first, which is then transformed into a scene representation in a feed-forward manner. The representation can be utilized to render arbitrary views which would excel in both single-frame quality and inter-frame consistency. Experiments in two city-scale datasets show that our model demonstrates proficiency in generating photo-realistic street-view image sequences and cross-view urban scenes from satellite imagery.
arxiv情報
著者 | Zuoyue Li,Zhenqiang Li,Zhaopeng Cui,Marc Pollefeys,Martin R. Oswald |
発行日 | 2024-01-19 16:15:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google