要約
複数のカメラ画像から鳥瞰図 (BEV) 表現を抽出すると、自動運転における LIDAR ベースのソリューションに代わる、費用対効果が高く、スケーラブルな代替手段が提供されます。
しかし、既存の BEV 方式のパフォーマンスは、明るさや天候の変化、カメラの故障など、さまざまな障害が発生すると大幅に低下します。
BEV 知覚のロバスト性を向上させるために、低ランク適応 (LoRA) を使用して大規模ビジョン基礎モデル DINOv2 を BEV 推定に適応させることを提案します。
私たちのアプローチは、DINOv2 の強力な表現空間を最先端のフレームワークである SimpleBEV の BEV タスクに適応させることで構築されています。
私たちの実験では、モデルと入力解像度をスケールアップすることでゲインが増加し、さまざまな破損の下で BEV 知覚の堅牢性が向上することが示されました。
また、学習可能なパラメータが少なく、トレーニング中の収束が速いという観点から、適応された表現の有効性も示します。
要約(オリジナル)
Extracting a Bird’s Eye View (BEV) representation from multiple camera images offers a cost-effective, scalable alternative to LIDAR-based solutions in autonomous driving. However, the performance of the existing BEV methods drops significantly under various corruptions such as brightness and weather changes or camera failures. To improve the robustness of BEV perception, we propose to adapt a large vision foundational model, DINOv2, to BEV estimation using Low Rank Adaptation (LoRA). Our approach builds on the strong representation space of DINOv2 by adapting it to the BEV task in a state-of-the-art framework, SimpleBEV. Our experiments show increased robustness of BEV perception under various corruptions, with increasing gains from scaling up the model and the input resolution. We also showcase the effectiveness of the adapted representations in terms of fewer learnable parameters and faster convergence during training.
arxiv情報
著者 | Merve Rabia Barın,Görkay Aydemir,Fatma Güney |
発行日 | 2024-09-16 12:23:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google