Multi-task Planar Reconstruction with Feature Warping Guidance

要約

区分的平面 3D 再構成は、平面インスタンスをセグメント化し、画像からその 3D 平面パラメータを同時に復元します。これは、屋内または人工環境に特に役立ちます。
セマンティック予測と組み合わせた 3D 平面の効率的な再構成は、シーンの理解と同時空間マッピングを必要とする幅広いアプリケーションに利点をもたらします。
ただし、既存の平面再構成モデ​​ルのほとんどは、意味論的な予測を無視しているか、リアルタイム アプリケーションにとって十分な効率で実行されていません。
SOLOPlanes は、平面パラメーターと区分平面インスタンス マスクとともに、各平面インスタンスのセマンティクスを同時に予測する、修正されたインスタンス セグメンテーション アーキテクチャに基づくリアルタイム平面再構成モデ​​ルです。
トレーニング プロセスに平面予測のためのマルチビュー ガイダンスを組み込むことで、インスタンス マスクのセグメンテーションの改善を実現します。
このクロスタスクの改善 (平面予測のトレーニングではあるがマスクのセグメンテーションの改善) は、マルチタスク学習における特徴共有の性質によるものです。
私たちのモデルは、43 FPS でのリアルタイム予測を達成しながら、推論時に単一の画像を使用してセマンティクスを同時に予測します。

要約(オリジナル)

Piece-wise planar 3D reconstruction simultaneously segments plane instances and recovers their 3D plane parameters from an image, which is particularly useful for indoor or man-made environments. Efficient reconstruction of 3D planes coupled with semantic predictions offers advantages for a wide range of applications requiring scene understanding and concurrent spatial mapping. However, most existing planar reconstruction models either neglect semantic predictions or do not run efficiently enough for real-time applications. We introduce SOLOPlanes, a real-time planar reconstruction model based on a modified instance segmentation architecture which simultaneously predicts semantics for each plane instance, along with plane parameters and piece-wise plane instance masks. We achieve an improvement in instance mask segmentation by including multi-view guidance for plane predictions in the training process. This cross-task improvement, training for plane prediction but improving the mask segmentation, is due to the nature of feature sharing in multi-task learning. Our model simultaneously predicts semantics using single images at inference time, while achieving real-time predictions at 43 FPS.

arxiv情報

著者 Luan Wei,Anna Hilsmann,Peter Eisert
発行日 2023-12-21 16:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク