An Empirical Study of the Generalization Ability of Lidar 3D Object Detectors to Unseen Domains

要約

3D 物体検出器 (3D-OD) は、多くのロボット タスク、特に自動運転において環境を理解するために不可欠です。
Lidar センサーを介して 3D 情報を含めることで、精度が大幅に向上します。
ただし、そのような検出器は、トレーニングされていない領域、つまり、異なる場所、センサー、天候などではパフォーマンスが低く、安全性が重要なアプリケーションにおける信頼性が制限されます。
3D-OD をこれらのドメインに適応させる方法が存在します。
ただし、これらの方法では 3D-OD をブラック ボックスとして扱い、基礎となるアーキテクチャ上の決定やソース ドメインのトレーニング戦略を無視します。
代わりに、3D-OD の詳細を深く掘り下げ、ドメイン適応前の堅牢性に影響を与える基本的な要因に焦点を当てます。
私たちは、3D-OD の堅牢性とドメイン適応において見落とされがちな、アーキテクチャ、ボクセル エンコーディング、データ拡張、アンカー戦略という 4 つの設計選択肢 (およびそれらの間の相互作用) を体系的に調査します。
センサーの種類、天候、場所の 3 種類のドメイン ギャップを含む 6 つのベンチマークにわたって、9 つの最先端の 3D-OD の堅牢性に及ぼす影響を評価します。
私たちの主な発見は次のとおりです: (1) ローカル ポイント特徴を備えたトランスバックボーンは 3D CNN よりも堅牢である、(2) テスト時のアンカー サイズ調整は地理的位置を越えた適応に重要であり、再トレーニングなしでスコアを大幅に向上させる、(3​​) ソース ドメイン
拡張により、モデルを低解像度のセンサーに一般化できるようになり、(4) 驚くべきことに、悪天候データを使用してトレーニングする場合よりも、よりクリーンな気象データを直接トレーニングした場合の悪天候に対するロバスト性が向上します。
より堅牢な 3D-OD を開発するための実践的なガイダンスを提供するために、主な結論と調査結果を概説します。

要約(オリジナル)

3D Object Detectors (3D-OD) are crucial for understanding the environment in many robotic tasks, especially autonomous driving. Including 3D information via Lidar sensors improves accuracy greatly. However, such detectors perform poorly on domains they were not trained on, i.e. different locations, sensors, weather, etc., limiting their reliability in safety-critical applications. There exist methods to adapt 3D-ODs to these domains; however, these methods treat 3D-ODs as a black box, neglecting underlying architectural decisions and source-domain training strategies. Instead, we dive deep into the details of 3D-ODs, focusing our efforts on fundamental factors that influence robustness prior to domain adaptation. We systematically investigate four design choices (and the interplay between them) often overlooked in 3D-OD robustness and domain adaptation: architecture, voxel encoding, data augmentations, and anchor strategies. We assess their impact on the robustness of nine state-of-the-art 3D-ODs across six benchmarks encompassing three types of domain gaps – sensor type, weather, and location. Our main findings are: (1) transformer backbones with local point features are more robust than 3D CNNs, (2) test-time anchor size adjustment is crucial for adaptation across geographical locations, significantly boosting scores without retraining, (3) source-domain augmentations allow the model to generalize to low-resolution sensors, and (4) surprisingly, robustness to bad weather is improved when training directly on more clean weather data than on training with bad weather data. We outline our main conclusions and findings to provide practical guidance on developing more robust 3D-ODs.

arxiv情報

著者 George Eskandar,Chongzhe Zhang,Abhishek Kaushik,Karim Guirguis,Mohamed Sayed,Bin Yang
発行日 2024-02-27 15:02:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク