DINO Pre-training for Vision-based End-to-end Autonomous Driving

要約

この記事では、模倣学習のコンテキストにおける視覚自動運転エージェントの事前トレーニングに焦点を当てます。
現在の手法は多くの場合、分類ベースの事前トレーニングに依存しており、これが暗黙的な画像理解の機能拡張を妨げていると我々は仮説を立てています。
私たちは、自己教師あり学習パラダイムに依存し、無関係なタスクでトレーニングされるラベルなし自己蒸留 (DINO) メソッドを使用して、駆動エージェントのビジュアル エンコーダーを事前トレーニングすることを提案します。
Leaderboard ベンチマークに従った CARLA 環境での実験では、提案された事前トレーニングが分類ベースの事前トレーニングよりも効率的であり、最近提案された視覚的場所認識に基づく事前トレーニング (VPRPre) と同等であることが明らかになりました。

要約(オリジナル)

In this article, we focus on the pre-training of visual autonomous driving agents in the context of imitation learning. Current methods often rely on a classification-based pre-training, which we hypothesise to be holding back from extending capabilities of implicit image understanding. We propose pre-training the visual encoder of a driving agent using the self-distillation with no labels (DINO) method, which relies on a self-supervised learning paradigm.% and is trained on an unrelated task. Our experiments in CARLA environment in accordance with the Leaderboard benchmark reveal that the proposed pre-training is more efficient than classification-based pre-training, and is on par with the recently proposed pre-training based on visual place recognition (VPRPre).

arxiv情報

著者 Shubham Juneja,Povilas Daniušis,Virginijus Marcinkevičius
発行日 2024-07-15 15:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク