要約
軌跡の長さは、強化学習 (RL) アルゴリズム内の重要なハイパーパラメーターとして機能し、ロボット工学アプリケーションにおけるサンプルの非効率性に大きく寄与します。
訓練プロセスにおいて軌道長が果たす極めて重要な役割を動機として、ロボットナビゲーションタスクにおけるRLアルゴリズムの訓練サンプル効率を高めるために設計された新しい適応軌道長スキームであるAda-NAVを紹介します。
軌道の長さを固定ハイパーパラメータとして扱う従来のアプローチとは異なり、基礎となるナビゲーション ポリシーのエントロピーに基づいて軌道長を動的に調整することを提案します。
興味深いことに、Ada-NAV は既存のオンポリシー RL 手法とオフポリシー RL 手法の両方に適用できます。これは、REINFORCE、Proximal Policy Optimization (PPO)、および Soft Actor-Critic という 3 つの一般的な RL 手法でその有効性を経験的に検証することで実証されています (
SAC)。
私たちは、シミュレーションおよび現実世界のロボット実験を通じて、Ada-NAV が一定またはランダムにサンプリングされた軌道長を使用する従来の方法よりも優れていることを実証します。
具体的には、固定サンプル予算の場合、Ada-NAV はナビゲーション成功率の 18\% の増加、ナビゲーション パスの長さの 20 ~ 38\% の削減、および標高コストの 9.32\% の削減を達成します。
さらに、Ada-NAV を Clearpath Husky ロボットと統合することによって Ada-NAV の多用途性を示し、複雑な屋外環境におけるその適用性を示します。
要約(オリジナル)
Trajectory length stands as a crucial hyperparameter within reinforcement learning (RL) algorithms, significantly contributing to the sample inefficiency in robotics applications. Motivated by the pivotal role trajectory length plays in the training process, we introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of RL algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, we propose to dynamically adjust it based on the entropy of the underlying navigation policy. Interestingly, Ada-NAV can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC). We demonstrate through simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
arxiv情報
著者 | Bhrij Patel,Kasun Weerakoon,Wesley A. Suttle,Alec Koppel,Brian M. Sadler,Tianyi Zhou,Amrit Singh Bedi,Dinesh Manocha |
発行日 | 2024-07-14 19:35:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google