Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving

要約

自律運転分野では、オブジェクト認識、軌道予測、モーション計画など、さまざまなトピックに顕著な進歩が見られました。
しかし、現在のアプローチは、時間の経過とともに運転シーンの複雑な進化を効果的に理解する上で直面しています。
このペーパーでは、自律運転のシーン理解のためにシンボリック基礎モデル(FM)をトレーニングするための新しい方法論であるFM4SUを提案します。
知識グラフ(KG)を活用して、交通参加者間の道路トポロジ、交通規則、複雑な相互作用などのドメインの知識とともに感覚観察をキャプチャします。
鳥瞰図(BEV)の象徴的な表現は、シーン全体のオブジェクト間の空間的情報を含む、各運転シーンのKGから抽出されます。
BEV表現は、一連のトークンに連続して、運転シーン要素間の共起の固有の理解を学び、次のシーンで予測を生成するために、事前に訓練された言語モデル(PLM)に与えられます。
さまざまなシナリオでヌスセンデータセットとKGを使用して多くの実験を実施しました。
結果は、微調整されたモデルがすべてのタスクで大幅に高い精度を達成することを示しています。
微調整されたT5モデルは、次のシーン予測精度86.7%を達成しました。
このペーパーでは、FM4SUは、自律運転におけるシーン理解のためのより包括的なモデルを開発するための有望な基盤を提供していると結論付けています。

要約(オリジナル)

The autonomous driving field has seen remarkable advancements in various topics, such as object recognition, trajectory prediction, and motion planning. However, current approaches face limitations in effectively comprehending the complex evolutions of driving scenes over time. This paper proposes FM4SU, a novel methodology for training a symbolic foundation model (FM) for scene understanding in autonomous driving. It leverages knowledge graphs (KGs) to capture sensory observation along with domain knowledge such as road topology, traffic rules, or complex interactions between traffic participants. A bird’s eye view (BEV) symbolic representation is extracted from the KG for each driving scene, including the spatio-temporal information among the objects across the scenes. The BEV representation is serialized into a sequence of tokens and given to pre-trained language models (PLMs) for learning an inherent understanding of the co-occurrence among driving scene elements and generating predictions on the next scenes. We conducted a number of experiments using the nuScenes dataset and KG in various scenarios. The results demonstrate that fine-tuned models achieve significantly higher accuracy in all tasks. The fine-tuned T5 model achieved a next scene prediction accuracy of 86.7%. This paper concludes that FM4SU offers a promising foundation for developing more comprehensive models for scene understanding in autonomous driving.

arxiv情報

著者 Hongkuan Zhou,Stefan Schmid,Yicong Li,Lavdim Halilaj,Xiangtong Yao,Wei cao
発行日 2025-03-24 14:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク