Learning Online Belief Prediction for Efficient POMDP Planning in Autonomous Driving

要約

自動運転における効果的な意思決定は、他の交通エージェントの将来の行動の正確な推論に依存します。
これを達成するために、オンラインの信念更新に基づく行動予測モデルと、部分的に観察可能なマルコフ決定プロセス (POMDP) の効率的なプランナーを提案します。
私たちは、潜在的な信念状態を動的に更新し、他のエージェントの意図を推測するために、リカレント ニューラル メモリ モデルで強化された Transformer ベースの予測モデルを開発します。
このモデルは、エージェント間の閉ループ対話を反映するために自我車両の意図を統合することもでき、オフライン データとオンライン対話の両方から学習します。
計画には、マクロ アクションを備えたモンテカルロ ツリー検索 (MCTS) プランナーを使用します。これは、時間的に拡張されたアクション ステップを検索することで計算の複雑さを軽減します。
MCTS プランナー内では、予測された長期マルチモーダル軌道を使用して将来の更新を近似します。これにより、反復的な信念更新が不要になり、実行効率が向上します。
私たちのアプローチには、事前検索としてディープ Q ラーニング (DQN) も組み込まれており、MCTS プランナーのパフォーマンスが大幅に向上します。
シミュレートされた環境からの実験結果により、提案した方法の有効性が検証されます。
オンライン信念更新モデルは、予測の精度と時間的一貫性を大幅に向上させ、意思決定のパフォーマンスの向上につながります。
MCTS プランナーで事前検索として DQN を採用すると、パフォーマンスが大幅に向上し、模倣学習ベースの事前検索よりも優れたパフォーマンスを発揮します。
さらに、マクロ アクションを使用した MCTS 計画は、パフォーマンスと効率の点で通常の方法よりも大幅に優れていることを示します。

要約(オリジナル)

Effective decision-making in autonomous driving relies on accurate inference of other traffic agents’ future behaviors. To achieve this, we propose an online belief-update-based behavior prediction model and an efficient planner for Partially Observable Markov Decision Processes (POMDPs). We develop a Transformer-based prediction model, enhanced with a recurrent neural memory model, to dynamically update latent belief state and infer the intentions of other agents. The model can also integrate the ego vehicle’s intentions to reflect closed-loop interactions among agents, and it learns from both offline data and online interactions. For planning, we employ a Monte-Carlo Tree Search (MCTS) planner with macro actions, which reduces computational complexity by searching over temporally extended action steps. Inside the MCTS planner, we use predicted long-term multi-modal trajectories to approximate future updates, which eliminates iterative belief updating and improves the running efficiency. Our approach also incorporates deep Q-learning (DQN) as a search prior, which significantly improves the performance of the MCTS planner. Experimental results from simulated environments validate the effectiveness of our proposed method. The online belief update model can significantly enhance the accuracy and temporal consistency of predictions, leading to improved decision-making performance. Employing DQN as a search prior in the MCTS planner considerably boosts its performance and outperforms an imitation learning-based prior. Additionally, we show that the MCTS planning with macro actions substantially outperforms the vanilla method in terms of performance and efficiency.

arxiv情報

著者 Zhiyu Huang,Chen Tang,Chen Lv,Masayoshi Tomizuka,Wei Zhan
発行日 2024-06-18 03:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク