要約
この研究では、クラス語彙の制限と、新しいオブジェクト クラスの注釈付けに伴う高コストによって妨げられている、現在の LiDAR ベースの 3D オブジェクト検出システムの限界に取り組みます。
都市環境におけるオープンボキャブラリー(OV)学習の探求は、マルチセンサーデータを備えた事前トレーニング済み視覚言語モデル(VLM)を使用して、新しいインスタンスをキャプチャすることを目的としています。
私たちはベースラインとして 4 つの潜在的なソリューションのセットを設計およびベンチマークし、入力データ戦略に基づいてトップダウンまたはボトムアップのアプローチに分類します。
これらの方法は効果的ではありますが、3D ボックス推定で新しいオブジェクトが欠落したり、厳密な事前分布を適用したりするなど、特定の制限があり、カメラ近くのオブジェクトや長方形ジオメトリのオブジェクトに偏りが生じます。
これらの制限を克服するために、3D OV タスクに普遍的な \textsc{Find n’ Propagate} アプローチを導入します。これは、新しいオブジェクトの再現を最大化し、この検出能力をより遠くの領域に伝播させ、それによって徐々により多くのオブジェクトをキャプチャすることを目的としています。
特に、貪欲ボックスシーカーを利用して、生成された各錐台内でさまざまな方向と深さの3Dの新しいボックスを検索し、クロスアライメントと密度ランカーによって新しく特定されたボックスの信頼性を保証します。
さらに、カメラに近接したオブジェクトに対する固有のバイアスは、メモリバンク内のベースサンプルの融合と組み合わせて、自己トレーニングプロセスで擬似ラベル付きの新規インスタンスをランダムに多様化する提案されたリモートシミュレーターによって軽減されます。
広範な実験により、さまざまな OV 設定、VLM、および 3D 検出器全体で新規想起率が 53% 向上することが実証されました。
特に、新しいオブジェクト クラスの平均精度 (AP) が最大 3.97 倍向上しました。
ソース コードは補足資料で入手できます。
要約(オリジナル)
In this work, we tackle the limitations of current LiDAR-based 3D object detection systems, which are hindered by a restricted class vocabulary and the high costs associated with annotating new object classes. Our exploration of open-vocabulary (OV) learning in urban environments aims to capture novel instances using pre-trained vision-language models (VLMs) with multi-sensor data. We design and benchmark a set of four potential solutions as baselines, categorizing them into either top-down or bottom-up approaches based on their input data strategies. While effective, these methods exhibit certain limitations, such as missing novel objects in 3D box estimation or applying rigorous priors, leading to biases towards objects near the camera or of rectangular geometries. To overcome these limitations, we introduce a universal \textsc{Find n’ Propagate} approach for 3D OV tasks, aimed at maximizing the recall of novel objects and propagating this detection capability to more distant areas thereby progressively capturing more. In particular, we utilize a greedy box seeker to search against 3D novel boxes of varying orientations and depth in each generated frustum and ensure the reliability of newly identified boxes by cross alignment and density ranker. Additionally, the inherent bias towards camera-proximal objects is alleviated by the proposed remote simulator, which randomly diversifies pseudo-labeled novel instances in the self-training process, combined with the fusion of base samples in the memory bank. Extensive experiments demonstrate a 53% improvement in novel recall across diverse OV settings, VLMs, and 3D detectors. Notably, we achieve up to a 3.97-fold increase in Average Precision (AP) for novel object classes. The source code is made available in the supplementary material.
arxiv情報
著者 | Djamahl Etchegaray,Zi Huang,Tatsuya Harada,Yadan Luo |
発行日 | 2024-03-20 12:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google