Language-Guided Traffic Simulation via Scene-Level Diffusion

要約

現実的で制御可能な交通シミュレーションは、自動運転車 (AV) の開発を加速するために必要な中核機能です。
しかし、学習ベースのトラフィック モデルを制御するための現在のアプローチは、専門分野に関するかなりの専門知識を必要とし、実務者にとっては使用が困難です。
これを解決するために、言語命令によってガイドできるシーンレベルの条件付き拡散モデルである CTG++ を紹介します。
これを開発するには、2 つの課題に取り組む必要があります。1 つは現実的で制御可能なトラフィック モデル バックボーンの必要性、もう 1 つは言語を使用してトラフィック モデルと連携する効果的な方法です。
これらの課題に対処するために、私たちはまず、現実的で制御可能なトラフィックを生成する時空間変換バックボーンを備えたシーンレベルの拡散モデルを提案します。
次に、大規模言語モデル (LLM) を利用してユーザーのクエリを損失関数に変換し、クエリに準拠した生成に向けて拡散モデルを導きます。
包括的な評価を通じて、現実的でクエリに準拠した交通シミュレーションを生成する際の提案手法の有効性を実証します。

要約(オリジナル)

Realistic and controllable traffic simulation is a core capability that is necessary to accelerate autonomous vehicle (AV) development. However, current approaches for controlling learning-based traffic models require significant domain expertise and are difficult for practitioners to use. To remedy this, we present CTG++, a scene-level conditional diffusion model that can be guided by language instructions. Developing this requires tackling two challenges: the need for a realistic and controllable traffic model backbone, and an effective method to interface with a traffic model using language. To address these challenges, we first propose a scene-level diffusion model equipped with a spatio-temporal transformer backbone, which generates realistic and controllable traffic. We then harness a large language model (LLM) to convert a user’s query into a loss function, guiding the diffusion model towards query-compliant generation. Through comprehensive evaluation, we demonstrate the effectiveness of our proposed method in generating realistic, query-compliant traffic simulations.

arxiv情報

著者 Ziyuan Zhong,Davis Rempe,Yuxiao Chen,Boris Ivanovic,Yulong Cao,Danfei Xu,Marco Pavone,Baishakhi Ray
発行日 2023-10-18 23:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク