Learning Online Belief Prediction for Efficient POMDP Planning in Autonomous Driving

要約

自動運転における効果的な意思決定は、他の交通エージェントの将来の行動の正確な推論に依存します。
これを達成するために、オンライン学習ベースの行動予測モデルと、部分的に観察可能なマルコフ決定プロセス (POMDP) の効率的なプランナーを提案します。
私たちは、リカレント ニューラル メモリ ネットワークで強化された学習ベースの予測モデルを開発し、潜在的な信念状態を動的に更新し、他のエージェントの意図を推測します。
このモデルは、エージェント間の閉ループ対話を反映するために自我車両の意図を統合することもでき、オフライン データとオンライン対話の両方から学習します。
計画には、アクション シーケンスを検索することで計算の複雑さを軽減する、オプション ベースのモンテカルロ ツリー検索 (MCTS) プランナーを採用します。
MCTS プランナー内では、予測された長期マルチモーダル軌道を使用して将来の更新を近似します。これにより、反復的な信念更新が不要になり、実行効率が向上します。
私たちのアプローチには、事前検索としてディープ Q ラーニング (DQN) も組み込まれており、MCTS プランナーのパフォーマンスが大幅に向上します。
シミュレートされた環境からの実験結果により、提案した方法の有効性が検証されます。
オンライン信念更新モデルは、予測の精度と時間的一貫性を大幅に向上させ、意思決定のパフォーマンスの向上につながります。
MCTS プランナーで事前検索として DQN を採用すると、パフォーマンスが大幅に向上し、模倣学習ベースの事前検索よりも優れたパフォーマンスを発揮します。
さらに、オプションベースの MCTS が、パフォーマンスと効率の点でバニラ方式よりも大幅に優れていることを示します。

要約(オリジナル)

Effective decision-making in autonomous driving relies on accurate inference of other traffic agents’ future behaviors. To achieve this, we propose an online learning-based behavior prediction model and an efficient planner for Partially Observable Markov Decision Processes (POMDPs). We develop a learning-based prediction model, enhanced with a recurrent neural memory network, to dynamically update latent belief states and infer the intentions of other agents. The model can also integrate the ego vehicle’s intentions to reflect closed-loop interactions among agents, and it learns from both offline data and online interactions. For planning, we employ an option-based Monte-Carlo Tree Search (MCTS) planner, which reduces computational complexity by searching over action sequences. Inside the MCTS planner, we use predicted long-term multi-modal trajectories to approximate future updates, which eliminates iterative belief updating and improves the running efficiency. Our approach also incorporates deep Q-learning (DQN) as a search prior, which significantly improves the performance of the MCTS planner. Experimental results from simulated environments validate the effectiveness of our proposed method. The online belief update model can significantly enhance the accuracy and temporal consistency of predictions, leading to improved decision-making performance. Employing DQN as a search prior in the MCTS planner considerably boosts its performance and outperforms an imitation learning-based prior. Additionally, we show that the option-based MCTS substantially outperforms the vanilla method in terms of performance and efficiency.

arxiv情報

著者 Zhiyu Huang,Chen Tang,Chen Lv,Masayoshi Tomizuka,Wei Zhan
発行日 2024-01-27 06:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク