UniDrive: Towards Universal Driving Perception Across Camera Configurations

要約

ビジョン中心の自動運転は、経済的なセンサーを使用して優れたパフォーマンスを実証しています。
基本的なステップとして、3D 認識は、3D-2D 投影に基づいて 2D 画像から 3D 情報を推測することを目的としています。
これにより、運転知覚モデルはセンサー構成 (カメラの固有および外部など) の変動の影響を受けやすくなります。
ただし、さまざまな車種に自動運転モデル​​を展開するには、カメラ構成全体を一般化することが重要です。
この論文では、カメラ構成全体で普遍的な認識を実現する、ビジョン中心の自動運転のための新しいフレームワークである UniDrive について紹介します。
私たちは、一連の統合仮想カメラを展開し、元の画像をこれらの統合仮想ビューに効果的に変換するための地上認識投影法を提案します。
さらに、元のカメラと仮想カメラの間で予想される投影誤差を最小限に抑えることによる仮想構成の最適化手法を提案します。
提案された仮想カメラ投影は、プラグアンドプレイ モジュールとして既存の 3D 知覚方法に適用して、カメラ パラメータの変動によってもたらされる課題を軽減することができ、その結果、より適応性が高く信頼性の高い運転知覚モデルが得られます。
フレームワークの有効性を評価するために、カメラ構成のみを変更しながら同じルートを運転して Carla のデータセットを収集します。
実験結果は、1 つの特定のカメラ構成でトレーニングされた私たちの方法が、パフォーマンスの多少の低下はあるものの、さまざまな構成に一般化できることを示しています。

要約(オリジナル)

Vision-centric autonomous driving has demonstrated excellent performance with economical sensors. As the fundamental step, 3D perception aims to infer 3D information from 2D images based on 3D-2D projection. This makes driving perception models susceptible to sensor configuration (e.g., camera intrinsics and extrinsics) variations. However, generalizing across camera configurations is important for deploying autonomous driving models on different car models. In this paper, we present UniDrive, a novel framework for vision-centric autonomous driving to achieve universal perception across camera configurations. We deploy a set of unified virtual cameras and propose a ground-aware projection method to effectively transform the original images into these unified virtual views. We further propose a virtual configuration optimization method by minimizing the expected projection error between original cameras and virtual cameras. The proposed virtual camera projection can be applied to existing 3D perception methods as a plug-and-play module to mitigate the challenges posed by camera parameter variability, resulting in more adaptable and reliable driving perception models. To evaluate the effectiveness of our framework, we collect a dataset on Carla by driving the same routes while only modifying the camera configurations. Experimental results demonstrate that our method trained on one specific camera configuration can generalize to varying configurations with minor performance degradation.

arxiv情報

著者 Ye Li,Wenzhao Zheng,Xiaonan Huang,Kurt Keutzer
発行日 2024-10-17 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク