RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models

要約

自動運転に関連した道路利用者の行動の予測は、ここ数年で科学界から大きな注目を集めています。
ほとんどの作品は、運動学的情報のみに基づいて行動を予測することに焦点を当てており、道路利用者は人間であり、そのため周囲のコンテキストに大きく影響されるため、現実を単純化しています。
さらに、膨大な量の研究作業が強力な深層学習技術に依存しています。この技術は、予測タスクで高いパフォーマンスのメトリクスを示しますが、道路シーンに含まれる文脈上の意味論的な情報を完全に理解して活用する能力が欠けている可能性があり、言うまでもなく、
人間が理解できる説明可能な予測を提供します。
この研究では、検索拡張生成 (RAG) 技術を使用して、ナレッジ グラフ (KG) の推論能力と大規模言語モデル (LLM) の表現能力を統合した、説明可能な道路利用者の行動予測システムを提案します。
この目的のために、ナレッジ グラフ エンベディング (KGE) とベイズ推論を組み合わせて、完全帰納的推論システムの展開を可能にし、グラフに含まれるレガシー情報とリアルタイムで収集された現在の証拠に依存する予測を発行できるようにします。
オンボードセンサーによる。
提案されたアプローチに従って 2 つの使用例が実装されました。1) 歩行者の横断行動の予測。
2) 車線変更操作の予測。
どちらの場合も、達成されたパフォーマンスは期待値と F1 スコアの点で現在の最先端技術を上回っており、この分野の将来の研究に有望な道筋を示しています。

要約(オリジナル)

Prediction of road users’ behaviors in the context of autonomous driving has gained considerable attention by the scientific community in the last years. Most works focus on predicting behaviors based on kinematic information alone, a simplification of the reality since road users are humans, and as such they are highly influenced by their surrounding context. In addition, a large plethora of research works rely on powerful Deep Learning techniques, which exhibit high performance metrics in prediction tasks but may lack the ability to fully understand and exploit the contextual semantic information contained in the road scene, not to mention their inability to provide explainable predictions that can be understood by humans. In this work, we propose an explainable road users’ behavior prediction system that integrates the reasoning abilities of Knowledge Graphs (KG) and the expressiveness capabilities of Large Language Models (LLM) by using Retrieval Augmented Generation (RAG) techniques. For that purpose, Knowledge Graph Embeddings (KGE) and Bayesian inference are combined to allow the deployment of a fully inductive reasoning system that enables the issuing of predictions that rely on legacy information contained in the graph as well as on current evidence gathered in real time by onboard sensors. Two use cases have been implemented following the proposed approach: 1) Prediction of pedestrians’ crossing actions; 2) Prediction of lane change maneuvers. In both cases, the performance attained surpasses the current state of the art in terms of anticipation and F1-score, showing a promising avenue for future research in this field.

arxiv情報

著者 Mohamed Manzour Hussien,Angie Nataly Melo,Augusto Luis Ballardini,Carlota Salinas Maldonado,Rubén Izquierdo,Miguel Ángel Sotelo
発行日 2024-05-01 11:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.NE パーマリンク