Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for Robotic Navigation

要約

強化学習はロボットナビゲーションの分野で大きな支持を得ている。しかし、持続的な課題は、主に探索を促すという本質的な複雑さに起因する、サンプルの非効率性である。学習中、移動エージェントは最適な行動を効率的に学習するために、可能な限り探索しなければならない。我々は、ロボットナビゲーションタスクにおける強化学習アルゴリズムの学習サンプル効率を向上させるために設計された、新しい適応的軌道長スキームであるAda-NAVを紹介する。軌道長を固定的なハイパーパラメータとして扱う従来のアプローチとは異なり、Ada-NAVは基礎となるナビゲーションポリシーのエントロピーに基づいて動的に軌道長を調整する。Ada-NAVの有効性を、2つの一般的な政策勾配法を用いて実証的に検証する:REINFORCEとProximal Policy Optimization (PPO)である。Ada-NAVが、一定またはランダムにサンプリングされた軌跡長を採用する従来の手法を凌駕することを、シミュレーションと実ロボット実験の両方を通じて実証する。具体的には、一定のサンプルバジェットにおいて、Ada-NAVはナビゲーション成功率を18%向上させ、ナビゲーション経路長を20-38%短縮し、仰角コストを9.32%減少させた。さらに、Ada-NAVをClearpath Huskyロボットと統合することで、複雑な屋外環境におけるAda-NAVの適用可能性を示す。

要約(オリジナル)

Reinforcement learning has gained significant traction in the field of robotic navigation. However, a persistent challenge is its sample inefficiency, primarily due to the inherent complexities of encouraging exploration. During training, the mobile agent must explore as much as possible to efficiently learn optimal behaviors. We introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of reinforcement learning algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, Ada-NAV dynamically adjusts it based on the entropy of the underlying navigation policy. We empirically validate the efficacy of AdaNAV using two popular policy gradient methods: REINFORCE and Proximal Policy Optimization (PPO). We demonstrate through both simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18% increase in navigation success rate, a 20-38% reduction in navigation path length, and a 9.32% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex, outdoor environments.

arxiv情報

著者 Bhrij Patel,Kasun Weerakoon,Wesley A. Suttle,Alec Koppel,Brian M. Sadler,Tianyi Zhou,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-10-02 21:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク