MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception

要約

自動運転車(AVS)の環境認識に関するほとんどの研究は、都市の交通環境に焦点を当てています。ここでは、主に人工のシーンからのオブジェクト/ものがあり、密な注釈を持つスケーラブルなデータセットを使用して、監視された学習モデルを訓練できます。
対照的に、オフロード環境の本質的に構造化されていない性質のため、手動で大規模なオフロード運転データセットを密に注釈することは困難です。
この論文では、オフロード環境認識、つまりMCRL4ORのためのマルチモーダル対照表現学習アプローチを提案します。
このアプローチの目的は、視覚的な画像、移動状態、および制御アクションを処理するための3つのエンコーダーを共同で学習し、運動状態を対照的な学習フレームワーク内で視覚イメージの融合した特徴と制御アクションと整列させることです。
このアライメント戦略の背後にある因果関係は、慣性運動状態が、視覚センサーによって知覚される現在の地形/地形状態の下で特定の制御アクションをとった結果であることです。
実験では、大規模なオフロード駆動データセットでMCRL4ORを事前に訓練し、オフロード運転シナリオでさまざまな下流の知覚タスクのために学習したマルチモーダル表現を採用します。
ダウンストリームタスクの優れた性能は、事前に訓練されたマルチモーダル表現の利点を示しています。
コードは\ url {https://github.com/1uciusy/mcrl4or}にあります。

要約(オリジナル)

Most studies on environmental perception for autonomous vehicles (AVs) focus on urban traffic environments, where the objects/stuff to be perceived are mainly from man-made scenes and scalable datasets with dense annotations can be used to train supervised learning models. By contrast, it is hard to densely annotate a large-scale off-road driving dataset manually due to the inherently unstructured nature of off-road environments. In this paper, we propose a Multimodal Contrastive Representation Learning approach for Off-Road environmental perception, namely MCRL4OR. This approach aims to jointly learn three encoders for processing visual images, locomotion states, and control actions by aligning the locomotion states with the fused features of visual images and control actions within a contrastive learning framework. The causation behind this alignment strategy is that the inertial locomotion state is the result of taking a certain control action under the current landform/terrain condition perceived by visual sensors. In experiments, we pre-train the MCRL4OR with a large-scale off-road driving dataset and adopt the learned multimodal representations for various downstream perception tasks in off-road driving scenarios. The superior performance in downstream tasks demonstrates the advantages of the pre-trained multimodal representations. The codes can be found in \url{https://github.com/1uciusy/MCRL4OR}.

arxiv情報

著者 Yi Yang,Zhang Zhang,Liang Wang
発行日 2025-01-23 08:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク