Categorical Traffic Transformer: Interpretable and Diverse Behavior Prediction with Tokenized Latent

要約

適切な交通モデルは、自動運転車 (AV) の計画と閉ループ シミュレーションの両方に不可欠であり、主要な設計目標には、精度、多様なマルチモーダル動作、解釈可能性、および下流の互換性が含まれます。
最近、ラージ言語モデル (LLM) の出現により、トラフィック モデルにさらに望ましい機能として LLM 互換性が追加されました。
連続軌跡予測とトークン化されたカテゴリカル予測 (レーン モード、ホモトピーなど) の両方を出力するトラフィック モデルであるカテゴリカル トラフィック トランスフォーマー (CTT) を紹介します。
CTT の最も優れた機能は、完全に解釈可能な潜在空間です。これにより、トレーニング中にグラウンド トゥルースから潜在変数を直接監視でき、モードの崩壊を完全に回避できます。
その結果、CTT は、予測精度で SOTA を上回りながら、セマンティックな意味を持つさまざまな潜在モードを条件とした多様な動作を生成できます。
さらに、CTT のトークンの入出力機能により、常識的な推論とゼロショット一般化のための LLM との統合が可能になります。

要約(オリジナル)

Adept traffic models are critical to both planning and closed-loop simulation for autonomous vehicles (AV), and key design objectives include accuracy, diverse multimodal behaviors, interpretability, and downstream compatibility. Recently, with the advent of large language models (LLMs), an additional desirable feature for traffic models is LLM compatibility. We present Categorical Traffic Transformer (CTT), a traffic model that outputs both continuous trajectory predictions and tokenized categorical predictions (lane modes, homotopies, etc.). The most outstanding feature of CTT is its fully interpretable latent space, which enables direct supervision of the latent variable from the ground truth during training and avoids mode collapse completely. As a result, CTT can generate diverse behaviors conditioned on different latent modes with semantic meanings while beating SOTA on prediction accuracy. In addition, CTT’s ability to input and output tokens enables integration with LLMs for common-sense reasoning and zero-shot generalization.

arxiv情報

著者 Yuxiao Chen,Sander Tonkens,Marco Pavone
発行日 2023-11-30 07:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク