要約
自動運転には正確な 3D オブジェクト検出が不可欠です。
LiDAR ベースの検出器は優れた性能を達成していますが、LiDAR センサーはコストが高いため、手頃な価格の車両に広く採用することができません。
カメラベースの検出器は安価な代替手段ですが、画像に固有の深さの曖昧さがあるため、LiDAR ベースの検出器と比較してパフォーマンスが劣ることがよくあります。
この研究では、ラベルのない過去の LiDAR データを活用して、単眼 3D 検出器の改善を目指しています。
具体的には、推論時に、カメラベースの検出器が、対象の場所での過去の移動からのラベルのない複数の LiDAR スキャンにアクセスできると想定します (LiDAR センサーを搭載した他のハイエンド車両からの可能性があります)。
この設定の下で、単眼 3D 検出器の同じ場所の非同期 LiDAR トラバーサルから関連する特徴を効果的に抽出するために、AsyncDepth と呼ばれる、新しくシンプルでエンドツーエンドのトレーニング可能なフレームワークを提案しました。
複数の最先端のモデルとデータセットにわたって、9.66 ミリ秒という無視できるほどの追加レイテンシーとわずかなストレージ コストで、一貫した大幅なパフォーマンス向上 (最大 9 AP) を示しています。
要約(オリジナル)
Accurate 3D object detection is crucial to autonomous driving. Though LiDAR-based detectors have achieved impressive performance, the high cost of LiDAR sensors precludes their widespread adoption in affordable vehicles. Camera-based detectors are cheaper alternatives but often suffer inferior performance compared to their LiDAR-based counterparts due to inherent depth ambiguities in images. In this work, we seek to improve monocular 3D detectors by leveraging unlabeled historical LiDAR data. Specifically, at inference time, we assume that the camera-based detectors have access to multiple unlabeled LiDAR scans from past traversals at locations of interest (potentially from other high-end vehicles equipped with LiDAR sensors). Under this setup, we proposed a novel, simple, and end-to-end trainable framework, termed AsyncDepth, to effectively extract relevant features from asynchronous LiDAR traversals of the same location for monocular 3D detectors. We show consistent and significant performance gain (up to 9 AP) across multiple state-of-the-art models and datasets with a negligible additional latency of 9.66 ms and a small storage cost.
arxiv情報
著者 | Yurong You,Cheng Perng Phoo,Carlos Andres Diaz-Ruiz,Katie Z Luo,Wei-Lun Chao,Mark Campbell,Bharath Hariharan,Kilian Q Weinberger |
発行日 | 2024-04-09 23:17:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google