Tree-structured Policy Planning with Learned Behavior Models

要約

自律走行車 (AV) は、自身の動きを計画しながら、隣接するエージェントのマルチモーダルな動作について推論する必要があります。
多くの既存の軌道プランナーは、双方向の相互作用を無視して、\emph{all} のもっともらしい未来を同時にうまく実行する単一の軌道を探し、その結果、過度に保守的な計画につながります。
自我エージェントが環境のマルチモーダル行動に反応するポリシーを計画するポリシー計画は、AV と環境の間のアクション – リアクションの相互作用を説明できるため、有望な方向性です。
ただし、ほとんどの既存の政策立案者は、実際の自動運転車アプリケーションの複雑さに対応していません。最新のディープラーニング予測モデルと互換性がないか、解釈できないか、高品質の軌道を生成できないかのいずれかです。
このギャップを埋めるために、最先端の深層学習予測モデルと互換性のあるポリシー プランナーであるツリー ポリシー プランニング (TPP) を提案し、多段階のモーション プランを生成し、環境行動に対するエゴ エージェントの影響を説明します。
.
TPP の重要なアイデアは、2 つのツリー構造の構築を通じて、連続最適化問題を扱いやすい離散マルコフ決定プロセス (MDP) に縮小することです。自我軌道オプションの自我軌道ツリーと、マルチモーダル自我条件付きシナリオ ツリーです。
環境予測。
現実世界の nuScenes データセットに基づくクローズド ループ シミュレーションで TPP の有効性を実証し、結果は、TPP が現実的な AV シナリオにスケーリングし、非ポリシー ベースラインよりも大幅に優れていることを示しています。

要約(オリジナル)

Autonomous vehicles (AVs) need to reason about the multimodal behavior of neighboring agents while planning their own motion. Many existing trajectory planners seek a single trajectory that performs well under \emph{all} plausible futures simultaneously, ignoring bi-directional interactions and thus leading to overly conservative plans. Policy planning, whereby the ego agent plans a policy that reacts to the environment’s multimodal behavior, is a promising direction as it can account for the action-reaction interactions between the AV and the environment. However, most existing policy planners do not scale to the complexity of real autonomous vehicle applications: they are either not compatible with modern deep learning prediction models, not interpretable, or not able to generate high quality trajectories. To fill this gap, we propose Tree Policy Planning (TPP), a policy planner that is compatible with state-of-the-art deep learning prediction models, generates multistage motion plans, and accounts for the influence of ego agent on the environment behavior. The key idea of TPP is to reduce the continuous optimization problem into a tractable discrete Markov Decision Process (MDP) through the construction of two tree structures: an ego trajectory tree for ego trajectory options, and a scenario tree for multi-modal ego-conditioned environment predictions. We demonstrate the efficacy of TPP in closed-loop simulations based on real-world nuScenes dataset and results show that TPP scales to realistic AV scenarios and significantly outperforms non-policy baselines.

arxiv情報

著者 Yuxiao Chen,Peter Karkus,Boris Ivanovic,Xinshuo Weng,Marco Pavone
発行日 2023-02-27 04:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク