Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for Robotic Navigation

要約

強化学習手法は、ロボット ナビゲーション戦略の学習には効果的ですが、サンプル効率が非常に悪いことが知られています。
このサンプルの非効率性は、特に非定常性が存在する場合、ポリシーの最適化中に探索と活用のジレンマのバランスが適切に取れていないことが原因の 1 つです。
サンプル効率のために探索と活用のバランスを組み込むために、シャノンまたは微分エントロピーで表されるポリシーのランダム性が減少するにつれて長さが増加する適応型軌道長スキームである Ada-NAV を提案します。
私たちの適応軌道長スキームは、より頻繁な勾配更新によりトレーニングの開始時の探索に重点を置き、その後のより長い軌道による活用に重点を置きます。
グリッドワールド、シミュレートされたロボット環境、および現実世界のロボット実験では、パフォーマンスとサンプル効率の観点から、一定およびランダムにサンプリングされた軌道長に対するこのアプローチの利点を実証します。
固定サンプル予算の場合、Ada-NAV は、他の方法で得られたポリシーと比較して、ナビゲーション成功率が 18% 増加し、ナビゲーション パス長が 20 ~ 38% 減少し、標高コストが 9.32% 減少します。
また、パフォーマンスを大幅に低下させることなく、Ada-NAV を Clearpath Husky ロボットに転送して統合できることも実証します。

要約(オリジナル)

Reinforcement learning methods, while effective for learning robotic navigation strategies, are known to be highly sample inefficient. This sample inefficiency comes in part from not suitably balancing the explore-exploit dilemma, especially in the presence of non-stationarity, during policy optimization. To incorporate a balance of exploration-exploitation for sample efficiency, we propose Ada-NAV, an adaptive trajectory length scheme where the length grows as a policy’s randomness, represented by its Shannon or differential entropy, decreases. Our adaptive trajectory length scheme emphasizes exploration at the beginning of training due to more frequent gradient updates and emphasizes exploitation later on with longer trajectories. In gridworld, simulated robotic environments, and real-world robotic experiments, we demonstrate the merits of the approach over constant and randomly sampled trajectory lengths in terms of performance and sample efficiency. For a fixed sample budget, Ada-NAV results in an 18% increase in navigation success rate, a 20-38% decrease in the navigation path length, and 9.32% decrease in the elevation cost compared to the policies obtained by the other methods. We also demonstrate that Ada-NAV can be transferred and integrated into a Clearpath Husky robot without significant performance degradation.

arxiv情報

著者 Bhrij Patel,Kasun Weerakoon,Wesley A. Suttle,Alec Koppel,Brian M. Sadler,Tianyi Zhou,Amrit Singh Bedi,Dinesh Manocha
発行日 2023-09-29 13:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク