CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images

要約

この論文では、多視点画像からの 3D 屋内物体検出のための新しいアプローチである CN-RMA を紹介します。
オクルージョン情報を提供するための明示的なジオメトリがない場合、画像と 3D の対応が曖昧であることが重要な課題であると考えられます。
この問題に対処するために、CN-RMA は 3D 再構成ネットワークと 3D オブジェクト検出ネットワークの相乗効果を活用します。このネットワークでは、再構成ネットワークが大まかな Truncated Signed Distance Function (TSDF) を提供し、画像特徴がエンドツーエンドで 3D 空間に正しく投票するようにガイドされます。
-終了方法。
具体的には、レイ マーチングを通じて各レイのサンプリングされたポイントに重みを関連付け、対応する 3D 位置に対する画像内のピクセルの寄与を表します。
このような重みは、画像の特徴が再構成された表面に近い領域のみに投票されるように、予測された符号付き距離によって決定されます。
私たちの手法は、ScanNet および ARKitScenes データセットの mAP@0.25 および mAP@0.5 によって測定されたように、マルチビュー画像からの 3D オブジェクト検出において最先端のパフォーマンスを達成します。
コードとモデルは https://github.com/SerCharles/CN-RMA でリリースされています。

要約(オリジナル)

This paper introduces CN-RMA, a novel approach for 3D indoor object detection from multi-view images. We observe the key challenge as the ambiguity of image and 3D correspondence without explicit geometry to provide occlusion information. To address this issue, CN-RMA leverages the synergy of 3D reconstruction networks and 3D object detection networks, where the reconstruction network provides a rough Truncated Signed Distance Function (TSDF) and guides image features to vote to 3D space correctly in an end-to-end manner. Specifically, we associate weights to sampled points of each ray through ray marching, representing the contribution of a pixel in an image to corresponding 3D locations. Such weights are determined by the predicted signed distances so that image features vote only to regions near the reconstructed surface. Our method achieves state-of-the-art performance in 3D object detection from multi-view images, as measured by mAP@0.25 and mAP@0.5 on the ScanNet and ARKitScenes datasets. The code and models are released at https://github.com/SerCharles/CN-RMA.

arxiv情報

著者 Guanlin Shen,Jingwei Huang,Zhihua Hu,Bin Wang
発行日 2024-04-09 15:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク