Conditional Predictive Behavior Planning with Inverse Reinforcement Learning for Human-like Autonomous Driving

要約

安全で人間のような意思決定を下すことは、自動運転システムの不可欠な機能であり、学習ベースの行動計画は、この目的に向けた有望な道筋です。
決定を直接出力する既存の学習ベースの方法とは異なり、この作業では、人間の運転データから予測および評価することを学習する予測行動計画フレームワークが導入されています。
フレームワークは 3 つの部分で構成されています: 軌道提案の形で候補となる行動の多様なセットを生成する行動生成モジュール、各提案に基づいて他のエージェントの将来の軌道を予測する条件付き動作予測ネットワーク、および適切に訓練されたスコアリング モジュールです。
最大エントロピー逆強化学習 (IRL) を使用して候補計画を評価します。
大規模な実世界の都市運転データセットで提案されたフレームワークを検証するために包括的な実験を行います。
結果は、条件付き予測モデルが、さまざまな軌道提案が与えられた場合に明確で合理的な将来の軌道を予測できること、および IRL ベースのスコアリング モジュールが人間の運転に近い計画を選択できることを示しています。
提案されたフレームワークは、人間の運転軌跡との類似性という点で、他のベースライン方法よりも優れています。
さらに、条件付き予測モデルは、非条件付きモデルと比較して予測と計画の両方のパフォーマンスを向上させることがわかり、スコアリング モジュールの学習は、評価を人間のドライバーと一致させるために重要です。

要約(オリジナル)

Making safe and human-like decisions is an essential capability of autonomous driving systems and learning-based behavior planning is a promising pathway toward this objective. Distinguished from existing learning-based methods that directly output decisions, this work introduces a predictive behavior planning framework that learns to predict and evaluate from human driving data. The framework consists of three parts: a behavior generation module that produces a diverse set of candidate behaviors in the form of trajectory proposals, a conditional motion prediction network that predicts other agents’ future trajectories based on each proposal, and a scoring module trained to properly evaluate the candidate plans using maximum entropy inverse reinforcement learning (IRL). We conduct comprehensive experiments to validate the proposed framework on a large-scale real-world urban driving dataset. The results show that the conditional prediction model can predict distinct and reasonable future trajectories given different trajectory proposals and the IRL-based scoring module can select plans that are close to human driving. The proposed framework outperforms other baseline methods in terms of similarity to human driving trajectories. Additionally, we find that the conditional prediction model improves both prediction and planning performance compared to the non-conditional model, and the learning of the scoring module is crucial for aligning the evaluations with human drivers.

arxiv情報

著者 Zhiyu Huang,Haochen Liu,Jingda Wu,Chen Lv
発行日 2023-02-19 08:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク