要約
既存の点群ベースの 3D 検出器は、屋内または屋外の特定のシーン向けに設計されています。
さまざまな環境から収集された点群内のオブジェクトの分布と点密度には大きな違いがあり、3D メトリクスの複雑な性質と相まって、多様なシーンに対応できる統一されたネットワーク アーキテクチャがまだ不足しています。
この論文では、同じフレームワーク内で屋内と屋外の 3D 検出に対処する統合 3D 検出器である Uni3DETR を提案します。
具体的には、オブジェクト予測にポイントとボクセルの相互作用を備えた検出トランスフォーマーを採用しています。これは、ボクセルの特徴とクロスアテンション用のポイントを活用し、データとの不一致に対して耐性のある動作をします。
次に、高密度の狭い範囲の屋内シーンではグローバル情報を、広範囲のまばらな屋外シーンではローカル情報を十分に活用するクエリ ポイントの混合を提案します。
さらに、私たちが提案する分離型 IoU は、xy 空間と z 空間を解きほぐすことで、位置特定のための最適化が容易なトレーニング ターゲットを提供します。
広範な実験により、Uni3DETR が屋内と屋外の両方の 3D 検出で一貫して優れたパフォーマンスを発揮することが検証されています。
一部の特定のデータセットでは良好に動作するものの、さまざまなシーンでは大幅な低下が生じるこれまでの特殊な検出器とは対照的に、Uni3DETR は異種条件下で強力な一般化能力を示します (図 1)。
コードは \href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR} で入手できます。
要約(オリジナル)
Existing point cloud based 3D detectors are designed for the particular scene, either indoor or outdoor ones. Because of the substantial differences in object distribution and point density within point clouds collected from various environments, coupled with the intricate nature of 3D metrics, there is still a lack of a unified network architecture that can accommodate diverse scenes. In this paper, we propose Uni3DETR, a unified 3D detector that addresses indoor and outdoor 3D detection within the same framework. Specifically, we employ the detection transformer with point-voxel interaction for object prediction, which leverages voxel features and points for cross-attention and behaves resistant to the discrepancies from data. We then propose the mixture of query points, which sufficiently exploits global information for dense small-range indoor scenes and local information for large-range sparse outdoor ones. Furthermore, our proposed decoupled IoU provides an easy-to-optimize training target for localization by disentangling the xy and z space. Extensive experiments validate that Uni3DETR exhibits excellent performance consistently on both indoor and outdoor 3D detection. In contrast to previous specialized detectors, which may perform well on some particular datasets but suffer a substantial degradation on different scenes, Uni3DETR demonstrates the strong generalization ability under heterogeneous conditions (Fig. 1). Codes are available at \href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR}.
arxiv情報
| 著者 | Zhenyu Wang,Yali Li,Xi Chen,Hengshuang Zhao,Shengjin Wang |
| 発行日 | 2023-10-09 13:20:20+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google