要約
テキストからスセンの生成は、通常、所定のパスに沿って重要なシナリオを生成することにより、環境の多様性を制限します。
これらの制約に対処するために、大規模な言語モデル(LLM)を活用して、自然言語の説明に基づいてCarlaシミュレーターの多様なトラフィックシナリオを自律的に生成する新しいテキストからトラフィックへのシーンフレームワークを提案します。
パイプラインは、いくつかの重要な段階で構成されています。(1)自然言語の入力が分解される迅速な分析。
(2)データベースから最適な道路を選択する道路検索。
(3)エージェントの計画、詳細なエージェントの種類と行動。
(4)シナリオ要件に合わせて道路のランキング、スコアリングロード。
(5)シミュレータで計画されたシナリオをレンダリングするシーン生成。
このフレームワークは、日常的なトラフィックシナリオと重要なトラフィックシナリオの両方をサポートし、その適用性を高めます。
私たちのアプローチは、エージェントの計画と道路の選択を多様化するだけでなく、SafeBenchの平均衝突率を8%から3.5%に大幅に削減することを実証します。
さらに、私たちのフレームワークは、キャプションタスクを運転するためのナレーションと推論を改善します。
当社の貢献とリソースは、https://basiclab.github.io/ttsgで公開されています。
要約(オリジナル)
Text-to-scene generation typically limits environmental diversity by generating key scenarios along predetermined paths. To address these constraints, we propose a novel text-to-traffic scene framework that leverages a large language model (LLM) to autonomously generate diverse traffic scenarios for the CARLA simulator based on natural language descriptions. Our pipeline comprises several key stages: (1) Prompt Analysis, where natural language inputs are decomposed; (2) Road Retrieval, selecting optimal roads from a database; (3) Agent Planning, detailing agent types and behaviors; (4) Road Ranking, scoring roads to match scenario requirements; and (5) Scene Generation, rendering the planned scenarios in the simulator. This framework supports both routine and critical traffic scenarios, enhancing its applicability. We demonstrate that our approach not only diversifies agent planning and road selection but also significantly reduces the average collision rate from 8% to 3.5% in SafeBench. Additionally, our framework improves narration and reasoning for driving captioning tasks. Our contributions and resources are publicly available at https://basiclab.github.io/TTSG.
arxiv情報
著者 | Bo-Kai Ruan,Hao-Tang Tsui,Yung-Hui Li,Hong-Han Shuai |
発行日 | 2025-02-19 16:32:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google