Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

要約

3Dセマンティックセグメンテーションに関する最近の研究では、専用ネットワークで各モダリティを処理し、学習した2D機能を3Dポイントに投影することで、画像とポイントクラウド間の相乗効果を活用することを提案しています。
大規模な点群と画像をマージすると、ポイントとピクセル間のマッピングの構築や、複数のビュー間のフィーチャの集約など、いくつかの課題が発生します。
現在の方法では、オクルージョンを回復するためにメッシュ再構成または特殊なセンサーが必要であり、ヒューリスティックを使用して利用可能な画像を選択および集約します。
対照的に、3Dポイントの表示条件を利用して、任意の位置で撮影された画像の特徴をマージする、エンドツーエンドのトレーニング可能なマルチビュー集約モデルを提案します。
私たちの方法は、標準の2Dネットワークと3Dネットワークを組み合わせることができ、色付け、メッシュ、または真の深度マップを必要とせずに、色付きの点群とハイブリッド2D/3Dネットワークで動作する両方の3Dモデルよりも優れています。
S3DIS(74.7 mIoU 6-Fold)およびKITTI-360(58.3 mIoU)で、大規模な屋内/屋外のセマンティックセグメンテーションに新しい最先端技術を設定しました。
私たちの完全なパイプラインはhttps://github.com/drprojects/DeepViewAggからアクセスでき、生の3Dスキャンと一連の画像とポーズのみが必要です。

要約(オリジナル)

Recent works on 3D semantic segmentation propose to exploit the synergy between images and point clouds by processing each modality with a dedicated network and projecting learned 2D features onto 3D points. Merging large-scale point clouds and images raises several challenges, such as constructing a mapping between points and pixels, and aggregating features between multiple views. Current methods require mesh reconstruction or specialized sensors to recover occlusions, and use heuristics to select and aggregate available images. In contrast, we propose an end-to-end trainable multi-view aggregation model leveraging the viewing conditions of 3D points to merge features from images taken at arbitrary positions. Our method can combine standard 2D and 3D networks and outperforms both 3D models operating on colorized point clouds and hybrid 2D/3D networks without requiring colorization, meshing, or true depth maps. We set a new state-of-the-art for large-scale indoor/outdoor semantic segmentation on S3DIS (74.7 mIoU 6-Fold) and on KITTI-360 (58.3 mIoU). Our full pipeline is accessible at https://github.com/drprojects/DeepViewAgg, and only requires raw 3D scans and a set of images and poses.

arxiv情報

著者 Damien Robert,Bruno Vallet,Loic Landrieu
発行日 2022-07-07 13:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク