要約
都市のシーンで衛星画像から現実的な地上ビューを予測することは、衛星画像と地上ビュー画像の間に大きな視界のギャップがあるため、困難な作業です。
私たちは、マルチビューの衛星画像から弱いジオメトリとテクスチャを最大限に尊重する地理固有のビューを生成することで、この課題に取り組むための新しいパイプラインを提案します。
上空の衛星画像からの部分的なセマンティクスや幾何学などの手がかりから画像を幻覚させる既存のアプローチとは異なり、私たちの方法は、衛星画像からの包括的な情報セットを使用して地理位置情報で地上ビュー画像を直接予測し、その結果、
解像度が 10 倍以上に向上します。
当社では、新しい建物改良手法を活用して、地上レベルでの衛星データの幾何学的歪みを軽減し、拡散ネットワークを使用したビュー合成のための正確な条件の作成を保証します。
さらに、我々は、予測画像の地理位置に近い画像サンプルを尊重するために拡散モデルの分布学習を促す、新しい地理固有事前分布を提案しました。
私たちのパイプラインが、衛星画像のみに基づいて、現実に近い地理固有の地上ビューを生成する最初の製品であることを実証します。
要約(オリジナル)
Predicting realistic ground views from satellite imagery in urban scenes is a challenging task due to the significant view gaps between satellite and ground-view images. We propose a novel pipeline to tackle this challenge, by generating geospecifc views that maximally respect the weak geometry and texture from multi-view satellite images. Different from existing approaches that hallucinate images from cues such as partial semantics or geometry from overhead satellite images, our method directly predicts ground-view images at geolocation by using a comprehensive set of information from the satellite image, resulting in ground-level images with a resolution boost at a factor of ten or more. We leverage a novel building refinement method to reduce geometric distortions in satellite data at ground level, which ensures the creation of accurate conditions for view synthesis using diffusion networks. Moreover, we proposed a novel geospecific prior, which prompts distribution learning of diffusion models to respect image samples that are closer to the geolocation of the predicted images. We demonstrate our pipeline is the first to generate close-to-real and geospecific ground views merely based on satellite images.
arxiv情報
著者 | Ningli Xu,Rongjun Qin |
発行日 | 2024-07-29 14:49:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google