Conditional Predictive Behavior Planning with Inverse Reinforcement Learning for Human-like Autonomous Driving

要約

安全で人間のような意思決定を下すことは、自動運転システムの不可欠な機能であり、学習ベースの行動計画は、この目的を達成するための有望な道筋を示しています。
決定を直接出力する既存の学習ベースの方法とは異なり、この作業では、人間の運転データから予測および評価することを学習する予測行動計画フレームワークが導入されています。
このフレームワークは、次の 3 つのコンポーネントで構成されています: 軌道提案の形で候補となる行動の多様なセットを生成する行動生成モジュール、各提案に基づいて他のエージェントの将来の軌道を予測する条件付き動作予測ネットワーク、およびそれらを評価するスコアリング モジュールです。
最大エントロピー逆強化学習 (IRL) を使用した候補計画。
包括的な実験を通じて、大規模な実世界の都市運転データセットで提案されたフレームワークを検証します。
結果は、条件付き予測モデルが、さまざまな軌道提案が与えられた場合に明確で合理的な将来の軌道を予測できること、および IRL ベースのスコアリング モジュールが人間の運転に近い計画を選択できることを示しています。
提案されたフレームワークは、人間の運転軌跡との類似性という点で、他のベースライン方法よりも優れています。
さらに、条件付き予測モデルは、非条件付きモデルと比較して、予測と計画の両方のパフォーマンスが向上することがわかりました。
最後に、評価を人間のドライバーと一致させるには、スコアリング モジュールを学習することが重要であることに注意してください。

要約(オリジナル)

Making safe and human-like decisions is an essential capability of autonomous driving systems, and learning-based behavior planning presents a promising pathway toward achieving this objective. Distinguished from existing learning-based methods that directly output decisions, this work introduces a predictive behavior planning framework that learns to predict and evaluate from human driving data. This framework consists of three components: a behavior generation module that produces a diverse set of candidate behaviors in the form of trajectory proposals, a conditional motion prediction network that predicts future trajectories of other agents based on each proposal, and a scoring module that evaluates the candidate plans using maximum entropy inverse reinforcement learning (IRL). We validate the proposed framework on a large-scale real-world urban driving dataset through comprehensive experiments. The results show that the conditional prediction model can predict distinct and reasonable future trajectories given different trajectory proposals and the IRL-based scoring module can select plans that are close to human driving. The proposed framework outperforms other baseline methods in terms of similarity to human driving trajectories. Additionally, we find that the conditional prediction model improves both prediction and planning performance compared to the non-conditional model. Lastly, we note that learning the scoring module is crucial for aligning the evaluations with human drivers.

arxiv情報

著者 Zhiyu Huang,Haochen Liu,Jingda Wu,Chen Lv
発行日 2023-03-07 08:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク