Towards High Efficient Long-horizon Planning with Expert-guided Motion-encoding Tree Search

要約

自動運転は、安全性の向上、交通管理の最適化、交通における新たなレベルの利便性を約束します。
MuZero などのモデルベースの強化学習アプローチでは長期的な計画が可能ですが、ツリーが深くなるにつれて検索ノードの数が指数関数的に増加するため、検索効率に大きな影響を与えます。
この問題に対処するために、この論文では、専門家がガイドするモーション エンコーディング ツリー検索 (EMTS) アルゴリズムを提案しました。
EMTS は、包括的なモーション プリミティブの潜在空間で可能なモーションを表現し、検索効率を向上させるためのエキスパート ポリシーを組み込むことにより、MuZero アルゴリズムを拡張します。
包括的なモーション プリミティブの潜在空間により、EMTS は生のアクションの代わりに任意の軌道をサンプリングして、検索ツリーの深さを減らすことができます。
また、エキスパート ポリシーの組み込みにより、EMTS アルゴリズムの検索およびトレーニング フェーズが早期の収束を可能にしました。
実験セクションでは、EMTS アルゴリズムが 3 つの困難なシナリオで他の 4 つのアルゴリズムと比較されます。
実験結果は,提案したEMTSアルゴリズムの有効性と探索効率を検証した。

要約(オリジナル)

Autonomous driving holds promise for increased safety, optimized traffic management, and a new level of convenience in transportation. While model-based reinforcement learning approaches such as MuZero enables long-term planning, the exponentially increase of the number of search nodes as the tree goes deeper significantly effect the searching efficiency. To deal with this problem, in this paper we proposed the expert-guided motion-encoding tree search (EMTS) algorithm. EMTS extends the MuZero algorithm by representing possible motions with a comprehensive motion primitives latent space and incorporating expert policies toimprove the searching efficiency. The comprehensive motion primitives latent space enables EMTS to sample arbitrary trajectories instead of raw action to reduce the depth of the search tree. And the incorporation of expert policies guided the search and training phases the EMTS algorithm to enable early convergence. In the experiment section, the EMTS algorithm is compared with other four algorithms in three challenging scenarios. The experiment result verifies the effectiveness and the searching efficiency of the proposed EMTS algorithm.

arxiv情報

著者 Tong Zhou,Erli Lyu,Jiaole Wang,Guangdu Cen,Ziqi Zha,Senmao Qi,Max Q. -H. Meng
発行日 2023-09-30 13:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.RO, I.2.9 パーマリンク