GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting

要約

自動運転車(SDV)が安全な操縦を計画できるようにするためには、運動予測のタスクが重要である。この目標に向けて、最新のアプローチは、正確な予測を行うために、地図、エージェントの過去の軌道、およびそれらの相互作用について推論する。これまで、地図と他のエージェントを各ターゲットエージェントの基準フレームにエンコードするアプローチが主流であった。しかし、このアプローチは、各エージェントに対して推論を実行する必要があるため、マルチエージェント予測には計算コストがかかる。スケーリングの課題に取り組むために、これまでの解決策は、すべてのエージェントとマップを共有座標フレーム(例えば、SDVフレーム)にエンコードすることでした。しかし、これはサンプル的に非効率であり、ドメインシフト(例えば、SDVが一般的でない状態を訪れたとき)に対して脆弱である。これに対し、本論文では、精度や汎用性を犠牲にすることなく、全てのエージェントと地図に対して効率的な共有符号化を提案する。この目標に向けて、我々はペア相対位置エンコーディングを利用して、異種空間グラフにおけるエージェントと地図要素間の幾何学的関係を表現する。このパラメータ化により、シーンの視点に依存せず、オフラインで計算された地図埋め込みを再利用することでオンライン計算を節約することができる。また、我々のデコーダは視点にとらわれず、レーングラフ上でエージェントのゴールを予測し、多様で文脈を考慮したマルチモーダルな予測を可能にする。我々は、都市部のArgoverse 2ベンチマークと新しい高速道路データセットで我々のアプローチの有効性を実証する。

要約(オリジナル)

The task of motion forecasting is critical for self-driving vehicles (SDVs) to be able to plan a safe maneuver. Towards this goal, modern approaches reason about the map, the agents’ past trajectories and their interactions in order to produce accurate forecasts. The predominant approach has been to encode the map and other agents in the reference frame of each target agent. However, this approach is computationally expensive for multi-agent prediction as inference needs to be run for each agent. To tackle the scaling challenge, the solution thus far has been to encode all agents and the map in a shared coordinate frame (e.g., the SDV frame). However, this is sample inefficient and vulnerable to domain shift (e.g., when the SDV visits uncommon states). In contrast, in this paper, we propose an efficient shared encoding for all agents and the map without sacrificing accuracy or generalization. Towards this goal, we leverage pair-wise relative positional encodings to represent geometric relationships between the agents and the map elements in a heterogeneous spatial graph. This parameterization allows us to be invariant to scene viewpoint, and save online computation by re-using map embeddings computed offline. Our decoder is also viewpoint agnostic, predicting agent goals on the lane graph to enable diverse and context-aware multimodal prediction. We demonstrate the effectiveness of our approach on the urban Argoverse 2 benchmark as well as a novel highway dataset.

arxiv情報

著者 Alexander Cui,Sergio Casas,Kelvin Wong,Simon Suo,Raquel Urtasun
発行日 2022-11-04 16:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO パーマリンク