SemanticFormer: Holistic and Semantic Traffic Scene Representation for Trajectory Prediction using Knowledge Graphs

要約

自動運転における軌道予測は、交通参加者、道路トポロジー、交通標識、およびそれらの相互の意味的関係を含む、運転シーンの関連するすべてのコンテキストの正確な表現に依存しています。
この問題への注目が高まっているにもかかわらず、軌道予測におけるほとんどのアプローチでは、これらすべての要素が十分に考慮されていません。
ハイブリッド アプローチを使用してセマンティックな交通シーン グラフを推論することにより、マルチモーダルな軌跡を予測するアプローチである SemanticFormer を紹介します。
これは、メタパスの形式で高レベルの情報を利用します。つまり、エージェントがナレッジ グラフから走行できる軌道であり、その後、正確な軌道を予測するために、複数の注意メカニズムに基づく新しいパイプラインによって処理されます。
SemanticFormer は、エージェント間およびエージェントと道路要素間の時空間情報および関係情報をキャプチャするための階層型異種グラフ エンコーダーで構成されています。
さらに、異なるエンコーディングを融合し、確率を使用して軌跡をデコードする予測子が含まれています。
最後に、改良モジュールが軌道の許可されたメタパスと速度プロファイルを評価し、最終的な予測軌道を取得します。
nuScenes ベンチマークの評価では、いくつかの SOTA メソッドと比較してパフォーマンスが向上していることが実証されています。
さらに、ナレッジ グラフを 2 つのグラフベースの既存の SOTA メソッド、つまり VectorNet と Laformer に簡単に追加して、元の均質なグラフを置き換えることができることを示します。
評価結果は、ナレッジ グラフを追加することにより、元の手法のパフォーマンスがそれぞれ 5% と 4% 向上することを示唆しています。

要約(オリジナル)

Trajectory prediction in autonomous driving relies on accurate representation of all relevant contexts of the driving scene, including traffic participants, road topology, traffic signs, as well as their semantic relations to each other. Despite increased attention to this issue, most approaches in trajectory prediction do not consider all of these factors sufficiently. We present SemanticFormer, an approach for predicting multimodal trajectories by reasoning over a semantic traffic scene graph using a hybrid approach. It utilizes high-level information in the form of meta-paths, i.e. trajectories on which an agent is allowed to drive from a knowledge graph which is then processed by a novel pipeline based on multiple attention mechanisms to predict accurate trajectories. SemanticFormer comprises a hierarchical heterogeneous graph encoder to capture spatio-temporal and relational information across agents as well as between agents and road elements. Further, it includes a predictor to fuse different encodings and decode trajectories with probabilities. Finally, a refinement module assesses permitted meta-paths of trajectories and speed profiles to obtain final predicted trajectories. Evaluation of the nuScenes benchmark demonstrates improved performance compared to several SOTA methods. In addition, we demonstrate that our knowledge graph can be easily added to two graph-based existing SOTA methods, namely VectorNet and Laformer, replacing their original homogeneous graphs. The evaluation results suggest that by adding our knowledge graph the performance of the original methods is enhanced by 5% and 4%, respectively.

arxiv情報

著者 Zhigang Sun,Zixu Wang,Lavdim Halilaj,Juergen Luettin
発行日 2024-07-01 04:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク