AdaptiveShape: Solving Shape Variability for 3D Object Detection with Geometry Aware Anchor Distributions

要約

点群と画像を使用した 3D オブジェクト検出は、自動運転などの認識タスクで重要な役割を果たします。
現在の方法は、標準形状の車両の検出と姿勢推定で優れたパフォーマンスを発揮しますが、より複雑な形状では遅れをとっています。
セミトレーラートラックの組み合わせ。
これらの特殊車両の形状と動きを正確に判断することは、ヤードの操作と操縦、および産業オートメーションのアプリケーションにおいて非常に重要です。
この作業では、そのようなクラスのパフォーマンスを改善および測定するためのいくつかの新しい方法が導入されています。
最先端の方法は、グラウンド トゥルース ターゲットの事前定義されたアンカー グリッドまたはヒートマップに基づいています。
ただし、基礎となる表現では、さまざまなサイズのオブジェクトの形状が考慮されていません。
私たちの主な貢献である AdaptiveShape は、形状認識アンカー分布とヒートマップを使用して検出機能を向上させます。
大型車両の場合、現在の形状にとらわれない方法と比較して +10.9% の AP を達成しています。
さらに、新しい高速 LiDAR カメラ フュージョンを紹介します。
これは、多くの処理パイプラインで利用できる 2D バウンディング ボックス カメラ検出に基づいています。
この融合方法は、完全に調整されたシステムや一時的に同期されたシステムに依存しないため、幅広いロボット アプリケーションに適用できます。
標準的なポイント ピラー ネットワークを拡張して、時間データを考慮し、複雑なオブジェクトの動きの学習を改善します。
さらに、グループ化されたオブジェクトのペアを使用するようにグラウンド トゥルースの増強を拡張し、従来の増強と比較してトラックの AP をさらに 2.2% 向上させました。

要約(オリジナル)

3D object detection with point clouds and images plays an important role in perception tasks such as autonomous driving. Current methods show great performance on detection and pose estimation of standard-shaped vehicles but lack behind on more complex shapes as e.g. semi-trailer truck combinations. Determining the shape and motion of those special vehicles accurately is crucial in yard operation and maneuvering and industrial automation applications. This work introduces several new methods to improve and measure the performance for such classes. State-of-the-art methods are based on predefined anchor grids or heatmaps for ground truth targets. However, the underlying representations do not take the shape of different sized objects into account. Our main contribution, AdaptiveShape, uses shape aware anchor distributions and heatmaps to improve the detection capabilities. For large vehicles we achieve +10.9% AP in comparison to current shape agnostic methods. Furthermore we introduce a new fast LiDAR-camera fusion. It is based on 2D bounding box camera detections which are available in many processing pipelines. This fusion method does not rely on perfectly calibrated or temporally synchronized systems and is therefore applicable to a broad range of robotic applications. We extend a standard point pillar network to account for temporal data and improve learning of complex object movements. In addition we extended a ground truth augmentation to use grouped object pairs to further improve truck AP by +2.2% compared to conventional augmentation.

arxiv情報

著者 Benjamin Sick,Michael Walter,Jochen Abhau
発行日 2023-02-28 12:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク