Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation

要約

Rehnection Learning(RL)は、ロボットナビゲーションの有望なアプローチであり、ロボットが試行錯誤を介して学習できるようにします。
ただし、現実世界のロボットタスクは、多くの場合、まばらな報酬に悩まされ、RLのサンプル非効率性による非効率的な探索と次のポリシーにつながります。
この作業では、報酬関数を変更せずにRLベースのロボットナビゲーションのサンプル効率を改善する新しい方法である、信頼制御探査(CCE)を紹介します。
エントロピーの正規化や報酬形状などの既存のアプローチとは異なり、報酬を変更することで不安定性を導入できます。CCEは、ポリシーエントロピーに基づいて軌道の長さを動的に調整します。
具体的には、探索を強化するために不確実性が高いときに軌跡を短くし、搾取を優先するために自信が高いときにそれらを拡張します。
CCEは、ポリシーエントロピーと勾配推定の間の理論的なつながりに触発された原則的で実用的なソリューションです。
シームレスにオンポリティおよびオフポリティRLメソッドを統合し、最小限の変更を必要とします。
シミュレートされたナビゲーションタスクと実際のナビゲーションタスクの両方で、強化、PPO、およびSAC全体でCCEを検証します。
CCEは、固定軌道とエントロピー正規化ベースラインを上回り、18 \%の成功率、20-38 \%の短いパス、および固定トレーニングサンプル予算の下で9.32 \%の標高コストを9.32%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%が達成します。
最後に、CLEARPATHハスキーロボットにCCEを展開し、複雑な屋外環境でその有効性を示しています。

要約(オリジナル)

Reinforcement learning (RL) is a promising approach for robotic navigation, allowing robots to learn through trial and error. However, real-world robotic tasks often suffer from sparse rewards, leading to inefficient exploration and suboptimal policies due to sample inefficiency of RL. In this work, we introduce Confidence-Controlled Exploration (CCE), a novel method that improves sample efficiency in RL-based robotic navigation without modifying the reward function. Unlike existing approaches, such as entropy regularization and reward shaping, which can introduce instability by altering rewards, CCE dynamically adjusts trajectory length based on policy entropy. Specifically, it shortens trajectories when uncertainty is high to enhance exploration and extends them when confidence is high to prioritize exploitation. CCE is a principled and practical solution inspired by a theoretical connection between policy entropy and gradient estimation. It integrates seamlessly with on-policy and off-policy RL methods and requires minimal modifications. We validate CCE across REINFORCE, PPO, and SAC in both simulated and real-world navigation tasks. CCE outperforms fixed-trajectory and entropy-regularized baselines, achieving an 18\% higher success rate, 20-38\% shorter paths, and 9.32\% lower elevation costs under a fixed training sample budget. Finally, we deploy CCE on a Clearpath Husky robot, demonstrating its effectiveness in complex outdoor environments.

arxiv情報

著者 Bhrij Patel,Kasun Weerakoon,Wesley A. Suttle,Alec Koppel,Brian M. Sadler,Tianyi Zhou,Amrit Singh Bedi,Dinesh Manocha
発行日 2025-03-13 16:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク