Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

要約

効果的な強化学習 (RL) パイプラインを開発する際の主な課題は、多くの場合、報酬関数の設計と調整です。
適切に設計された報酬形成は、学習の大幅な高速化につながります。
ただし、単純に定式化された報酬は、適切に調整されていない場合、望ましい動作と矛盾し、過剰適合やパフォーマンスの異常を引き起こす可能性があります。
理論的には、広範な種類の潜在的報酬形成 (PBRS) は、最適なポリシーに影響を与えることなく学習プロセスをガイドするのに役立ちます。
いくつかの研究では、学習の収束を加速するために潜在的な報酬形成の使用を検討していますが、そのほとんどはグリッド世界と低次元システムに限定されており、ロボット工学における RL は主に標準形式の報酬形成に依存しています。
このペーパーでは、人型ロボットの標準的な成形形式を PBRS でベンチマークします。
この高次元システムでは、PBRS は収束速度に関してわずかな利点しかないことがわかります。
ただし、PBRS の報酬条件は、一般的な報酬形成アプローチよりもスケーリングに対して大幅に堅牢であるため、調整が容易です。

要約(オリジナル)

The main challenge in developing effective reinforcement learning (RL) pipelines is often the design and tuning the reward functions. Well-designed shaping reward can lead to significantly faster learning. Naively formulated rewards, however, can conflict with the desired behavior and result in overfitting or even erratic performance if not properly tuned. In theory, the broad class of potential based reward shaping (PBRS) can help guide the learning process without affecting the optimal policy. Although several studies have explored the use of potential based reward shaping to accelerate learning convergence, most have been limited to grid-worlds and low-dimensional systems, and RL in robotics has predominantly relied on standard forms of reward shaping. In this paper, we benchmark standard forms of shaping with PBRS for a humanoid robot. We find that in this high-dimensional system, PBRS has only marginal benefits in convergence speed. However, the PBRS reward terms are significantly more robust to scaling than typical reward shaping approaches, and thus easier to tune.

arxiv情報

著者 Se Hwan Jeon,Steve Heim,Charles Khazoom,Sangbae Kim
発行日 2023-07-19 17:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク