要約
ベンチマークは、自動運転の軌道予測モデルを評価する一般的な方法です。
既存のベンチマークは、巡航などのより一般的なシナリオと、すべてのシナリオの平均によって計算される距離ベースの指標に偏ったデータセットに依存しています。
このような連隊を追跡すると、モデルがさまざまなシナリオにどれだけうまく対処できるか、またその出力がどの程度許容可能で多様性があるかという両方の観点から、モデルの特性について少し洞察が得られます。
軌跡の許容性と多様性を測定するために設計された補完的な指標が多数存在しますが、それらは軌跡の長さなどのバイアスに悩まされます。
この論文では、軌道予測アプローチを評価するための新しいベンチマーク パラダイム (基準) を提案します。
特に、1) 道路の構造、モデルの性能、および予測モデルのきめ細かいランク付けのためのデータ特性に応じて、さまざまなレベルの特異性で運転シナリオを抽出する方法を提案します。
2) 特定のシナリオの特性を組み込むことによって多様性を測定するための新しいバイアスのない指標のセットと、現実世界の運転上の制約に動機付けられた道路の構造と運動学的コンプライアンスを考慮することによる許容性。
3) 提案されたベンチマークを使用して、大規模な Argoverse データセットを使用して予測モデルの代表的なセットに対して広範な実験を実行します。
提案されたベンチマークがモデルのより正確なランキングを生成し、モデルの動作を特徴付ける手段として機能することを示します。
さらに、提案された指標を計算するために使用されるさまざまな要素の寄与を強調するためにアブレーション研究を紹介します。
要約(オリジナル)
Benchmarking is a common method for evaluating trajectory prediction models for autonomous driving. Existing benchmarks rely on datasets, which are biased towards more common scenarios, such as cruising, and distance-based metrics that are computed by averaging over all scenarios. Following such a regiment provides a little insight into the properties of the models both in terms of how well they can handle different scenarios and how admissible and diverse their outputs are. There exist a number of complementary metrics designed to measure the admissibility and diversity of trajectories, however, they suffer from biases, such as length of trajectories. In this paper, we propose a new benChmarking paRadIgm for evaluaTing trajEctoRy predIction Approaches (CRITERIA). Particularly, we propose 1) a method for extracting driving scenarios at varying levels of specificity according to the structure of the roads, models’ performance, and data properties for fine-grained ranking of prediction models; 2) A set of new bias-free metrics for measuring diversity, by incorporating the characteristics of a given scenario, and admissibility, by considering the structure of roads and kinematic compliancy, motivated by real-world driving constraints. 3) Using the proposed benchmark, we conduct extensive experimentation on a representative set of the prediction models using the large scale Argoverse dataset. We show that the proposed benchmark can produce a more accurate ranking of the models and serve as a means of characterizing their behavior. We further present ablation studies to highlight contributions of different elements that are used to compute the proposed metrics.
arxiv情報
著者 | Changhe Chen,Mozhgan Pourkeshavarz,Amir Rasouli |
発行日 | 2024-08-19 16:01:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google