Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images

要約

世界中の詳細な 2D 地図を作成するには、膨大な共同作業が必要です。
OpenStreetMap は、1,100 万人の登録ユーザーが、特徴的なランドマークや一般的な都市オブジェクトを含む 17 億 5,000 万以上のエントリの GPS 位置に手動で注釈を付けた結果です。
同時に、手動の注釈にはエラーが含まれる可能性があり、更新に時間がかかるため、地図の精度が制限されます。
Maps from Motion (MfM) は、未校正の多視点画像のコレクションから直接セマンティック オブジェクトの 2D マップを計算することで、このような時間のかかる地図作成手順を自動化する一歩前進です。
各画像から一連の物体検出を抽出し、画像をキャプチャしたカメラの参照フレームを中心としたトップダウンのローカル マップ内でそれらの空間配置を推定します。
これらのローカル マップはシーンの不完全でノイズの多い断片を提供するため、これらのローカル マップを位置合わせすることは簡単な問題ではありません。また、繰り返されるパターンの存在と都市のオブジェクトの外観の変動が限られているため、それら全体での一致検出は信頼性がありません。
私たちは、新しいグラフベースのフレームワークでこれに対処します。このフレームワークは、各画像内で検出された物体の空間的および意味論的な分布をエンコードし、可能なすべてを考慮しながら、それらを組み合わせてグローバル参照系で物体の姿勢を予測する方法を学習します。
一致を検出し、各画像で観察されたトポロジを保存します。
問題の複雑さにも関わらず、私たちの最良のモデルは、COLMAP の失敗率が 80% である、視点の変化が激しいまばらなシーケンスでも、平均 4 メートル以内 (つまり、GPS 精度以下) の精度でグローバル 2D レジストレーションを達成します。
合成データと現実世界のデータに関する広範な評価を提供し、標準的な最適化手法が失敗するシナリオでもこのメソッドがどのようにソリューションを取得するかを示します。

要約(オリジナル)

World-wide detailed 2D maps require enormous collective efforts. OpenStreetMap is the result of 11 million registered users manually annotating the GPS location of over 1.75 billion entries, including distinctive landmarks and common urban objects. At the same time, manual annotations can include errors and are slow to update, limiting the map’s accuracy. Maps from Motion (MfM) is a step forward to automatize such time-consuming map making procedure by computing 2D maps of semantic objects directly from a collection of uncalibrated multi-view images. From each image, we extract a set of object detections, and estimate their spatial arrangement in a top-down local map centered in the reference frame of the camera that captured the image. Aligning these local maps is not a trivial problem, since they provide incomplete, noisy fragments of the scene, and matching detections across them is unreliable because of the presence of repeated pattern and the limited appearance variability of urban objects. We address this with a novel graph-based framework, that encodes the spatial and semantic distribution of the objects detected in each image, and learns how to combine them to predict the objects’ poses in a global reference system, while taking into account all possible detection matches and preserving the topology observed in each image. Despite the complexity of the problem, our best model achieves global 2D registration with an average accuracy within 4 meters (i.e., below GPS accuracy) even on sparse sequences with strong viewpoint change, on which COLMAP has an 80% failure rate. We provide extensive evaluation on synthetic and real-world data, showing how the method obtains a solution even in scenarios where standard optimization techniques fail.

arxiv情報

著者 Matteo Toso,Stefano Fiorini,Stuart James,Alessio Del Bue
発行日 2024-11-19 16:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク