Semantic Validation in Structure from Motion


タイトル: Structure from Motionにおける意味的バリデーション


– Structure from Motion(SfM)は、異なる角度から撮影された2D画像の集合から計算された投影測定値の系列から、シーンの3D構造を回復するプロセスである。
– SfMには、特徴点検出とマッチング、カメラモーション推定、推定された内部と外部パラメータと特徴点からの3D構造の回復の3つの主要なステップがある。
– SfMにおける問題は、テクスチャが欠けている場合や繰り返しのある特徴がある場合に、フレーム間の特徴点マッチングに誤りを引き起こすことがあることである。
– Semantic segmentationは、深層畳み込みニューラルネットワークを用いて、入力画像のピクセルにラベルを付けることで、SfMモデルを検証および修正するためのルートを提供する。
– シーン内のクラスに関連する意味的および幾何学的特性は、各オブジェクトの事前制約を適用するために利用できる。
– 提案手法は、SfMパイプラインCOLMAPとsemantic segmentationパイプラインDeepLabを使用して評価され、1102枚の画像から成る反復的な建築シーンのデータセットで改善された3D SfMモデルの検証方法を提供する。


The Structure from Motion (SfM) challenge in computer vision is the process of recovering the 3D structure of a scene from a series of projective measurements that are calculated from a collection of 2D images, taken from different perspectives. SfM consists of three main steps; feature detection and matching, camera motion estimation, and recovery of 3D structure from estimated intrinsic and extrinsic parameters and features. A problem encountered in SfM is that scenes lacking texture or with repetitive features can cause erroneous feature matching between frames. Semantic segmentation offers a route to validate and correct SfM models by labelling pixels in the input images with the use of a deep convolutional neural network. The semantic and geometric properties associated with classes in the scene can be taken advantage of to apply prior constraints to each class of object. The SfM pipeline COLMAP and semantic segmentation pipeline DeepLab were used. This, along with planar reconstruction of the dense model, were used to determine erroneous points that may be occluded from the calculated camera position, given the semantic label, and thus prior constraint of the reconstructed plane. Herein, semantic segmentation is integrated into SfM to apply priors on the 3D point cloud, given the object detection in the 2D input images. Additionally, the semantic labels of matched keypoints are compared and inconsistent semantically labelled points discarded. Furthermore, semantic labels on input images are used for the removal of objects associated with motion in the output SfM models. The proposed approach is evaluated on a data-set of 1102 images of a repetitive architecture scene. This project offers a novel method for improved validation of 3D SfM models.


著者 Joseph Rowell
発行日 2023-04-05 12:58:59+00:00
arxiv_id(pdf)

カテゴリー: cs.CV, cs.RO