Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

要約

大規模言語モデル (LLM) は、テキストと画像を理解し、人間のようなテキストを生成し、複雑な推論タスクを実行する能力で大きな注目を集めています。
ただし、動的な状況での意思決定のために、自然言語テキストを組み合わせてこの高度な推論を一般化する能力については、さらなる研究が必要です。
この研究では、特に自動運転シナリオにおいて、LLM が算術推論と常識的推論の組み合わせをどの程度うまく適応して適用できるかを調査します。
私たちは、LLM のハイブリッド推論能力により、検出された物体やセンサーのデータを分析し、運転規制や物理法則を理解し、追加のコンテキストを提供できるようになり、自動運転を改善できると仮説を立てています。
これにより、(気象条件による)視界が悪い中での意思決定など、従来の方法では不十分な可能性がある複雑なシナリオに対処できます。
私たちは、大規模言語モデル (LLM) の回答を CARLA 内で人間が生成したグラウンド トゥルースと比較することで、精度に基づいて LLM を評価しました。
その結果、画像 (検出された物体) とセンサー データの組み合わせを LLM に入力すると、さまざまな気象条件下で自動運転車のブレーキとスロットルの制御に正確な情報を提供できることがわかりました。
この定式化と回答は、自動操縦システムの意思決定に役立ちます。

要約(オリジナル)

Large Language Models (LLMs) have garnered significant attention for their ability to understand text and images, generate human-like text, and perform complex reasoning tasks. However, their ability to generalize this advanced reasoning with a combination of natural language text for decision-making in dynamic situations requires further exploration. In this study, we investigate how well LLMs can adapt and apply a combination of arithmetic and common-sense reasoning, particularly in autonomous driving scenarios. We hypothesize that LLMs hybrid reasoning abilities can improve autonomous driving by enabling them to analyze detected object and sensor data, understand driving regulations and physical laws, and offer additional context. This addresses complex scenarios, like decisions in low visibility (due to weather conditions), where traditional methods might fall short. We evaluated Large Language Models (LLMs) based on accuracy by comparing their answers with human-generated ground truth inside CARLA. The results showed that when a combination of images (detected objects) and sensor data is fed into the LLM, it can offer precise information for brake and throttle control in autonomous vehicles across various weather conditions. This formulation and answers can assist in decision-making for auto-pilot systems.

arxiv情報

著者 Mehdi Azarafza,Mojtaba Nayyeri,Charles Steinmetz,Steffen Staab,Achim Rettberg
発行日 2024-08-19 13:27:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク