Improving Generalization Ability for 3D Object Detection by Learning Sparsity-invariant Features

要約

自律走行において、3次元物体検出は物体を正確に識別し追跡するために不可欠である。このタスクのために様々な技術が開発され続けているにもかかわらず、そのほとんどに重大な欠点が見られる。本論文では、単一領域における3次元物体検出の汎化能力を向上させる手法を提案する。我々は主に、単一のソースドメインから、異なるセンサー構成とシーン分布を持つターゲットドメインへの汎化に焦点を当てる。単一のソースドメインからスパース不変な特徴を学習するために、我々は、検出器にとって最も重要な密度を特定するために、現在の検出器によって決定された信頼度スコアを使用して、特定のビームにソースデータを選択的にサブサンプリングする。その後、教師-生徒のフレームワークを使用して、異なる点群密度に対する鳥瞰図(BEV)特徴の位置合わせを行います。また、特徴コンテンツアライメント(FCA)とグラフベースの埋め込み関係アライメント(GERA)を利用し、検出器のドメイン非依存性を指示する。広範な実験により、我々の手法が他のベースラインと比較して優れた汎化能力を示すことが実証された。さらに、我々の手法は、ターゲットドメインのデータにアクセスできる特定のドメイン適応手法をも凌駕する。

要約(オリジナル)

In autonomous driving, 3D object detection is essential for accurately identifying and tracking objects. Despite the continuous development of various technologies for this task, a significant drawback is observed in most of them-they experience substantial performance degradation when detecting objects in unseen domains. In this paper, we propose a method to improve the generalization ability for 3D object detection on a single domain. We primarily focus on generalizing from a single source domain to target domains with distinct sensor configurations and scene distributions. To learn sparsity-invariant features from a single source domain, we selectively subsample the source data to a specific beam, using confidence scores determined by the current detector to identify the density that holds utmost importance for the detector. Subsequently, we employ the teacher-student framework to align the Bird’s Eye View (BEV) features for different point clouds densities. We also utilize feature content alignment (FCA) and graph-based embedding relationship alignment (GERA) to instruct the detector to be domain-agnostic. Extensive experiments demonstrate that our method exhibits superior generalization capabilities compared to other baselines. Furthermore, our approach even outperforms certain domain adaptation methods that can access to the target domain data.

arxiv情報

著者 Hsin-Cheng Lu,Chung-Yi Lin,Winston H. Hsu
発行日 2025-02-04 13:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク