From Sparse to Dense: Toddler-inspired Reward Transition in Goal-Oriented Reinforcement Learning

要約

強化学習(RL)エージェントは、特にまばらまたは密度の高い報酬学習のバイアス学習である環境で、探査と搾取のバランスをとる際に課題に直面することがよくあります。
人間の幼児などの生物学的システムは、自由な探査からまばらな報酬を伴う自由な調査から、ますます密度の高い報酬によって導かれる目標指向の行動に移行することにより、自然にこのバランスをナビゲートします。
この自然な進行に触発されて、私たちは目標指向のRLタスクにおける幼児に触発された報酬の移行を調査します。
私たちの研究は、最適な戦略を維持しながら、スパースから潜在的な密度の高い(S2D)報酬への移行に焦点を当てています。
動的ロボットアームの操作とエゴセントリック3Dナビゲーションタスクの実験を通じて、効果的なS2D報酬遷移が学習パフォーマンスとサンプル効率を大幅に向上させることを実証します。
さらに、密度視覚師を使用して、S2D遷移がポリシー損失の状況を滑らかにし、RLモデルの一般化を改善するより広い最小値をもたらすことを示します。
さらに、Tolmanの迷路実験を再解釈し、S2D報酬の文脈における初期の自由な探索的学習の重要な役割を強調しています。

要約(オリジナル)

Reinforcement learning (RL) agents often face challenges in balancing exploration and exploitation, particularly in environments where sparse or dense rewards bias learning. Biological systems, such as human toddlers, naturally navigate this balance by transitioning from free exploration with sparse rewards to goal-directed behavior guided by increasingly dense rewards. Inspired by this natural progression, we investigate the Toddler-Inspired Reward Transition in goal-oriented RL tasks. Our study focuses on transitioning from sparse to potential-based dense (S2D) rewards while preserving optimal strategies. Through experiments on dynamic robotic arm manipulation and egocentric 3D navigation tasks, we demonstrate that effective S2D reward transitions significantly enhance learning performance and sample efficiency. Additionally, using a Cross-Density Visualizer, we show that S2D transitions smooth the policy loss landscape, resulting in wider minima that improve generalization in RL models. In addition, we reinterpret Tolman’s maze experiments, underscoring the critical role of early free exploratory learning in the context of S2D rewards.

arxiv情報

著者 Junseok Park,Hyeonseo Yang,Min Whoo Lee,Won-Seok Choi,Minsu Lee,Byoung-Tak Zhang
発行日 2025-01-29 18:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T20, 91E40, cs.AI, cs.LG, cs.RO パーマリンク