3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction


衛星ラスター画像から都市部を 3D で再構築することは、学術研究と産業研究の両方において長年にわたる挑戦的な目標でした。
詳細レベル $2$ でこの目的を達成する今日のまれな方法は、ジオメトリに基づく手続き型アプローチに依存しており、入力としてステレオ画像や LIDAR データを必要とします。
ここでは、KIBS(\textit{Keypoints Inference By Segmentation}) という名前の都市 3D 再構成手法を提案します。この手法は 2 つの新しい機能で構成されています。i) 屋根セクションの 3D 検出のための完全なディープラーニング アプローチ、および ii) 単一の 1 つだけ
(非直交) 衛星ラスター イメージをモデル入力として使用します。
これは 2 つのステップで実現されます。i) 建物の屋根部分の 2D セグメンテーションを実行するマスク R-CNN モデルによって、後者のセグメント化されたピクセルを RGB 衛星ラスター画像内でブレンドした後、ii) 別の同一のマスク R-CNN によって実現されます。
パノプティック セグメンテーションを通じて屋根セクションのコーナーの地面からの高さを推定し、建物と都市の完全な 3D 再構成を行うモデルです。
2 つのデータ セットでそれぞれ $88.55\%$ と $75.21\%$ の個々の屋根セクションの 2D セグメンテーションの Jaccard インデックスを使用して、さまざまな都市エリアを数分で再構成することで、KIBS 法の可能性を実証します。
3D 再構成のこのように正しくセグメント化されたピクセルの高さの平均誤差は、2 つのデータセットでそれぞれ $1.60$ m と $2.06$ m であるため、LOD2 精度の範囲内にあります。


Reconstructing urban areas in 3D out of satellite raster images has been a long-standing and challenging goal of both academical and industrial research. The rare methods today achieving this objective at a Level Of Details $2$ rely on procedural approaches based on geometry, and need stereo images and/or LIDAR data as input. We here propose a method for urban 3D reconstruction named KIBS(\textit{Keypoints Inference By Segmentation}), which comprises two novel features: i) a full deep learning approach for the 3D detection of the roof sections, and ii) only one single (non-orthogonal) satellite raster image as model input. This is achieved in two steps: i) by a Mask R-CNN model performing a 2D segmentation of the buildings’ roof sections, and after blending these latter segmented pixels within the RGB satellite raster image, ii) by another identical Mask R-CNN model inferring the heights-to-ground of the roof sections’ corners via panoptic segmentation, unto full 3D reconstruction of the buildings and city. We demonstrate the potential of the KIBS method by reconstructing different urban areas in a few minutes, with a Jaccard index for the 2D segmentation of individual roof sections of $88.55\%$ and $75.21\%$ on our two data sets resp., and a height’s mean error of such correctly segmented pixels for the 3D reconstruction of $1.60$ m and $2.06$ m on our two data sets resp., hence within the LOD2 precision range.


著者 Johann Lussange,Mulin Yu,Yuliya Tarabalka,Florent Lafarge
発行日 2023-07-11 16:23:19+00:00
