要約
大規模言語モデル(LLM)は、特に汎化性と解釈可能性において、自律走行分野で有望視されている。我々は、ベクトル化された数値モダリティと事前に訓練されたLLMを融合し、運転状況における文脈理解を向上させる独自のオブジェクトレベル・マルチモーダルLLMアーキテクチャを紹介する。また、RLエージェントで収集された高品質な制御コマンドと教師LLM(GPT-3.5)で生成された質問応答ペアの組み合わせからなる、10kの運転シナリオから得られた160kのQAペアからなる新しいデータセットを紹介する。ベクトルキャプション言語データを用いて、数値ベクトルモダリティを静的LLM表現と整合させるための独自の事前学習戦略を考案する。また、ドライビングQAの評価指標を導入し、LLMドライバがドライビングシナリオの解釈、質問への回答、意思決定に熟達していることを実証する。我々の発見は、従来の行動クローニングと比較して、LLMベースの運転行動生成の可能性を強調する。私たちのベンチマーク、データセット、モデルは、さらなる研究のために利用可能です。
要約(オリジナル)
Large Language Models (LLMs) have shown promise in the autonomous driving sector, particularly in generalization and interpretability. We introduce a unique object-level multimodal LLM architecture that merges vectorized numeric modalities with a pre-trained LLM to improve context understanding in driving situations. We also present a new dataset of 160k QA pairs derived from 10k driving scenarios, paired with high quality control commands collected with RL agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct pretraining strategy is devised to align numeric vector modalities with static LLM representations using vector captioning language data. We also introduce an evaluation metric for Driving QA and demonstrate our LLM-driver’s proficiency in interpreting driving scenarios, answering questions, and decision-making. Our findings highlight the potential of LLM-based driving action generation in comparison to traditional behavioral cloning. We make our benchmark, datasets, and model available for further exploration.
arxiv情報
著者 | Long Chen,Oleg Sinavski,Jan Hünermann,Alice Karnsund,Andrew James Willmott,Danny Birch,Daniel Maund,Jamie Shotton |
発行日 | 2023-10-03 11:05:14+00:00 |
arxivサイト | arxiv_id(pdf) |