SGV3D:Towards Scenario Generalization for Vision-based Roadside 3D Object Detection

要約

路側認識は、自動運転車の認識能力を視覚範囲を超えて拡張し、死角に対処することで、自動運転車の安全性を大幅に向上させることができます。
しかし、現在の最先端の視覚ベースの路側検出方法は、ラベル付けされたシーンでは高い精度を備えていますが、新しいシーンではパフォーマンスが劣ります。
これは、路側カメラは設置後も静止したままであり、単一のシーンからしかデータを収集できないため、アルゴリズムがこれらの路側の背景とカメラのポーズを過剰適合してしまうためです。
この問題に対処するために、この文書では、SGV3D と呼ばれる、ビジョンベースの路側 3D 物体検出のための革新的なシナリオ一般化フレームワークを提案します。
具体的には、背景抑制モジュール (BSM) を採用し、2D から鳥瞰図への投影中に背景の特徴を減衰させることで、ビジョン中心のパイプラインにおける背景のオーバーフィッティングを軽減します。
さらに、新しいシーンからのラベルなし画像を使用する半教師ありデータ生成パイプライン (SSDG) を導入することで、さまざまなカメラ ポーズを持つ多様なインスタンス前景が生成され、特定のカメラ ポーズのオーバーフィッティングのリスクに対処します。
私たちは、2 つの大規模な道路脇のベンチマークでこの方法を評価しました。
私たちの方法は、DAIR-V2X-I 異種ベンチマークの BEVHeight と比較して、車両で +42.57%、歩行者で +5.87%、自転車で +14.89% など、新しいシーンで以前のすべての方法を大幅に上回っています。
大規模な Rope3D 異種ベンチマークでは、乗用車で 14.48%、大型車両で 12.41% という顕著な向上を達成しました。
私たちは、シナリオを一般化する能力を強調しながら、沿道認識技術の探求に関する洞察に貢献することを目指しています。
コードは https://github.com/yanglei18/SGV3D で入手できます。

要約(オリジナル)

Roadside perception can greatly increase the safety of autonomous vehicles by extending their perception ability beyond the visual range and addressing blind spots. However, current state-of-the-art vision-based roadside detection methods possess high accuracy on labeled scenes but have inferior performance on new scenes. This is because roadside cameras remain stationary after installation and can only collect data from a single scene, resulting in the algorithm overfitting these roadside backgrounds and camera poses. To address this issue, in this paper, we propose an innovative Scenario Generalization Framework for Vision-based Roadside 3D Object Detection, dubbed SGV3D. Specifically, we employ a Background-suppressed Module (BSM) to mitigate background overfitting in vision-centric pipelines by attenuating background features during the 2D to bird’s-eye-view projection. Furthermore, by introducing the Semi-supervised Data Generation Pipeline (SSDG) using unlabeled images from new scenes, diverse instance foregrounds with varying camera poses are generated, addressing the risk of overfitting specific camera poses. We evaluate our method on two large-scale roadside benchmarks. Our method surpasses all previous methods by a significant margin in new scenes, including +42.57% for vehicle, +5.87% for pedestrian, and +14.89% for cyclist compared to BEVHeight on the DAIR-V2X-I heterologous benchmark. On the larger-scale Rope3D heterologous benchmark, we achieve notable gains of 14.48% for car and 12.41% for large vehicle. We aspire to contribute insights on the exploration of roadside perception techniques, emphasizing their capability for scenario generalization. The code will be available at https://github.com/yanglei18/SGV3D

arxiv情報

著者 Lei Yang,Xinyu Zhang,Jun Li,Li Wang,Chuang Zhang,Li Ju,Zhiwei Li,Yang Shen
発行日 2024-04-09 15:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク