What You See Is What You Detect: Towards better Object Densification in 3D detection

要約

最近の研究では、LiDAR 信号からの 3D 認識におけるオブジェクトの完成の重要性が実証されています。
モジュールを使用してレーザー スキャナーによって生成された点群を高密度化し、より優れた再現性とより正確な結果をもたらすいくつかの方法が提案されています。
その方向性を追求し、この研究では直感に反する視点を提示します。広く使用されている完全形状完成アプローチは、実際には、特に遠くの物体や歩行者のような小さな物体に対して、より高い誤差上限をもたらします。
この観察に基づいて、以前の方法で生成された予測ポイントの 11.3\% のみを必要とする可視パーツ完成方法を導入します。
密な表現を回復するために、目に見える前景オブジェクトに関連付けられた点セットを拡張するメッシュ変形ベースの方法を提案します。
私たちのアプローチは正確な 3D 検出を達成するために前景オブジェクトの目に見える部分のみに焦点を当てていることを考慮して、このメソッドを What You See Is What You Detect (WYSIWYD) と名付けました。
したがって、我々の提案手法は、Intra-Frustum Segmentation Transformer (IFST) とメッシュ変形から前景深度を予測する Mesh Depth Completion Network (MDCNet) の 2 つの部分から構成される検出器に依存しないモデルです。
このようにして、私たちのモデルは、ほとんどの擬似 LIDAR ベースの手法で使用される、時間のかかる全深度の完了タスクを必要としません。
私たちの実験的評価では、私たちのアプローチが KITTI および NuScenes データセット上のほとんどの公開ベースライン モデルと比較して最大 12.2\% のパフォーマンス向上をもたらし、最先端のモデルを新たなレベルに引き上げることができることが示されています。
コードは \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}} で入手できます。

要約(オリジナル)

Recent works have demonstrated the importance of object completion in 3D Perception from Lidar signal. Several methods have been proposed in which modules were used to densify the point clouds produced by laser scanners, leading to better recall and more accurate results. Pursuing in that direction, we present, in this work, a counter-intuitive perspective: the widely-used full-shape completion approach actually leads to a higher error-upper bound especially for far away objects and small objects like pedestrians. Based on this observation, we introduce a visible part completion method that requires only 11.3\% of the prediction points that previous methods generate. To recover the dense representation, we propose a mesh-deformation-based method to augment the point set associated with visible foreground objects. Considering that our approach focuses only on the visible part of the foreground objects to achieve accurate 3D detection, we named our method What You See Is What You Detect (WYSIWYD). Our proposed method is thus a detector-independent model that consists of 2 parts: an Intra-Frustum Segmentation Transformer (IFST) and a Mesh Depth Completion Network(MDCNet) that predicts the foreground depth from mesh deformation. This way, our model does not require the time-consuming full-depth completion task used by most pseudo-lidar-based methods. Our experimental evaluation shows that our approach can provide up to 12.2\% performance improvements over most of the public baseline models on the KITTI and NuScenes dataset bringing the state-of-the-art to a new level. The codes will be available at \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}}

arxiv情報

著者 Tianran Liu,Zeping Zhang,Morteza Mousa Pasandi,Robert Laganiere
発行日 2023-11-14 23:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク