要約
動的交通アクターの将来の軌道を予測することは、自動運転の基礎となるタスクです。
既存の注目に値する取り組みにより、パフォーマンスは大幅に向上しましたが、シーンの認識と複雑なトラフィック セマンティクスの理解にはギャップが残っています。
この論文は、明示的なプロンプト エンジニアリングを行わずに大規模言語モデル (LLM) を使用して、エージェントの過去/観察された軌跡とシーン セマンティクスから将来のモーションを生成する可能性を初めて調査した Traj-LLM を提案します。
Traj-LLM は、エージェントとシーンの特徴を LLM が理解できる形式に分析するためのスパース コンテキスト結合コーディングから始まります。
これに基づいて、私たちは LLM の強力な理解能力を革新的に探索して、さまざまな高レベルのシーン知識とインタラクティブな情報をキャプチャします。
人間のようなレーンフォーカス認知機能をエミュレートし、Traj-LLM のシーン理解を強化することで、先駆的な Mamba モジュールを活用したレーン認識確率学習を導入します。
最後に、マルチモーダル ラプラス デコーダーは、シーンに準拠したマルチモーダル予測を実現するように設計されています。
広範な実験により、LLM の強力な事前知識と理解力によって強化された Traj-LLM が、レーンを意識した確率学習と合わせて、評価指標全体で最先端の手法を上回っていることが明らかになりました。
さらに、少数ショット分析により、Traj-LLM のパフォーマンスがさらに実証され、データセットのわずか 50% で、完全なデータ利用に依存するベンチマークの大部分を上回ります。
この研究では、LLM に固有の高度な機能を軌道予測タスクに装備し、新しい方法でエージェントの動きを予測するためのより汎用的で適応性のあるソリューションを提供することを検討しています。
要約(オリジナル)
Predicting the future trajectories of dynamic traffic actors is a cornerstone task in autonomous driving. Though existing notable efforts have resulted in impressive performance improvements, a gap persists in scene cognitive and understanding of the complex traffic semantics. This paper proposes Traj-LLM, the first to investigate the potential of using Large Language Models (LLMs) without explicit prompt engineering to generate future motion from agents’ past/observed trajectories and scene semantics. Traj-LLM starts with sparse context joint coding to dissect the agent and scene features into a form that LLMs understand. On this basis, we innovatively explore LLMs’ powerful comprehension abilities to capture a spectrum of high-level scene knowledge and interactive information. Emulating the human-like lane focus cognitive function and enhancing Traj-LLM’s scene comprehension, we introduce lane-aware probabilistic learning powered by the pioneering Mamba module. Finally, a multi-modal Laplace decoder is designed to achieve scene-compliant multi-modal predictions. Extensive experiments manifest that Traj-LLM, fortified by LLMs’ strong prior knowledge and understanding prowess, together with lane-aware probability learning, outstrips state-of-the-art methods across evaluation metrics. Moreover, the few-shot analysis further substantiates Traj-LLM’s performance, wherein with just 50% of the dataset, it outperforms the majority of benchmarks relying on complete data utilization. This study explores equipping the trajectory prediction task with advanced capabilities inherent in LLMs, furnishing a more universal and adaptable solution for forecasting agent motion in a new way.
arxiv情報
著者 | Zhengxing Lan,Hongbo Li,Lingshan Liu,Bo Fan,Yisheng Lv,Yilong Ren,Zhiyong Cui |
発行日 | 2024-05-08 09:28:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google