Efficient Baselines for Motion Prediction in Autonomous Driving

要約

複数の周囲エージェントの動作予測 (MP) は、単純なロボットから自動運転スタック (ADS) に至るまで、任意の複雑な環境において重要なタスクです。
現在の技術では、エンドツーエンドのパイプラインを使用してこの問題に取り組んでいます。通常、入力データは、最も関連性の高いエージェントの物理情報と過去の軌跡をレンダリングした上面図です。
最適なパフォーマンスを得るには、この情報を活用することが必須です。
その意味で、信頼できる ADS は適切な予測を時間通りに生成する必要があります。
ただし、多くのアプローチでは単純な ConvNet と LSTM を使用してソーシャル潜在機能を取得していますが、両方の情報ソース (地図と過去の軌跡) を使用する場合、State-Of-The-Art (SOTA) モデルはリアルタイム アプリケーションには複雑すぎる可能性があります。
特に物理的な情報を考慮すると、ほとんど解釈できません。
さらに、このようなモデルのパフォーマンスは、特定の交通シナリオごとに利用可能な入力の数に大きく依存しますが、特に注釈付きの高精細 (HD) マップの場合、入手にコストがかかります。
この研究では、よく知られた Argoverse 1 Motion Forecasting Benchmark の効率的なベースラインをいくつか提案します。
私たちは、アテンション メカニズムや GNN を含む、MP 用の SOTA 技術を使用したコンパクトなモデルの開発を目指しています。
当社の軽量モデルは、ブラックボックス CNN ベースまたは地図用の複雑すぎるグラフ手法とは対照的に、運動学的制約に基づく新しい前処理ステップにより、標準的な社会情報と、走行可能エリアからのポイントや妥当な中心線などの解釈可能な地図情報を使用します。
エンコーディングを使用して、他の SOTA メソッドよりも少ない操作とパラメーターでペアまでの精度を達成する、もっともらしいマルチモーダル軌道を生成します。
私たちのコードは https://github.com/Cram3r95/mapfe4mp で公開されています。

要約(オリジナル)

Motion Prediction (MP) of multiple surroundings agents is a crucial task in arbitrarily complex environments, from simple robots to Autonomous Driving Stacks (ADS). Current techniques tackle this problem using end-to-end pipelines, where the input data is usually a rendered top-view of the physical information and the past trajectories of the most relevant agents; leveraging this information is a must to obtain optimal performance. In that sense, a reliable ADS must produce reasonable predictions on time. However, despite many approaches use simple ConvNets and LSTMs to obtain the social latent features, State-Of-The-Art (SOTA) models might be too complex for real-time applications when using both sources of information (map and past trajectories) as well as little interpretable, specially considering the physical information. Moreover, the performance of such models highly depends on the number of available inputs for each particular traffic scenario, which are expensive to obtain, particularly, annotated High-Definition (HD) maps. In this work, we propose several efficient baselines for the well-known Argoverse 1 Motion Forecasting Benchmark. We aim to develop compact models using SOTA techniques for MP, including attention mechanisms and GNNs. Our lightweight models use standard social information and interpretable map information such as points from the driveable area and plausible centerlines by means of a novel preprocessing step based on kinematic constraints, in opposition to black-box CNN-based or too-complex graphs methods for map encoding, to generate plausible multimodal trajectories achieving up-to-pair accuracy with less operations and parameters than other SOTA methods. Our code is publicly available at https://github.com/Cram3r95/mapfe4mp .

arxiv情報

著者 Carlos Gómez-Huélamo,Marcos V. Conde,Rafael Barea,Manuel Ocaña,Luis M. Bergasa
発行日 2023-10-31 22:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク