DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving

要約

自動運転の分野において、自動運転車システムの 2 つの重要な特徴は、決定ロジックの説明可能性と環境認識の正確さです。
本稿では、自動運転システムの性能と信頼性を向上させる新しい自動運転システム「DME-Driver」について紹介します。
DME-Driver は、強力なビジョン言語モデルを意思決定者として利用し、計画指向の知覚モデルを制御信号生成者として利用します。
説明可能で信頼性の高い運転決定を保証するために、論理的な意思決定者は大規模なビジョン言語モデルに基づいて構築されます。
このモデルは、経験豊富な人間のドライバーが採用するロジックに従い、同様の方法で意思決定を行います。
一方で、正確な制御信号の生成は正確かつ詳細な環境認識に依存しており、この点で 3D シーン認識モデルが優れています。
したがって、計画指向の知覚モデルが信号生成器として採用されます。
意思決定者が行った論理的な決定を自動運転車の正確な制御信号に変換します。
提案されたモデルを効果的にトレーニングするために、自動運転用の新しいデータセットが作成されました。
このデータセットには、さまざまな人間のドライバーの行動とその根底にある動機が含まれています。
このデータセットを活用することで、私たちのモデルは論理的思考プロセスを通じて高精度の計画精度を実現します。

要約(オリジナル)

In the field of autonomous driving, two important features of autonomous driving car systems are the explainability of decision logic and the accuracy of environmental perception. This paper introduces DME-Driver, a new autonomous driving system that enhances the performance and reliability of autonomous driving system. DME-Driver utilizes a powerful vision language model as the decision-maker and a planning-oriented perception model as the control signal generator. To ensure explainable and reliable driving decisions, the logical decision-maker is constructed based on a large vision language model. This model follows the logic employed by experienced human drivers and makes decisions in a similar manner. On the other hand, the generation of accurate control signals relies on precise and detailed environmental perception, which is where 3D scene perception models excel. Therefore, a planning oriented perception model is employed as the signal generator. It translates the logical decisions made by the decision-maker into accurate control signals for the self-driving cars. To effectively train the proposed model, a new dataset for autonomous driving was created. This dataset encompasses a diverse range of human driver behaviors and their underlying motivations. By leveraging this dataset, our model achieves high-precision planning accuracy through a logical thinking process.

arxiv情報

著者 Wencheng Han,Dongqian Guo,Cheng-Zhong Xu,Jianbing Shen
発行日 2024-01-08 03:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク