要約
幼児は、まばらなフィードバックを伴う自由な探索から、より密度の高い報酬を伴う目標指向の学習のために以前の経験を活用するまで進化します。
この幼児からインスピレーションを得た報酬遷移からインスピレーションを得て、強化学習 (RL) タスクに組み込んだ場合のさまざまな報酬遷移の影響を探ることに着手しました。
私たちの調査の中心は、報酬の変化に関係なく最適な戦略を共有する、スパース報酬から潜在ベースの高密度報酬への移行です。
自己中心的なナビゲーションやロボットアーム操作タスクなどのさまざまな実験を通じて、適切な報酬の推移がサンプルの効率と成功率に大きな影響を与えることがわかりました。
特に注目すべきは、幼児にヒントを得たスパースからデンスへの (S2D) 移行の有効性です。
これらのパフォーマンス指標を超えて、Cross-Density Visualizer 技術を使用して、移行、特に S2D がポリシー損失の状況を平滑化し、RL モデルの一般化を強化する幅広い最小値を促進することを観察しました。
要約(オリジナル)
Toddlers evolve from free exploration with sparse feedback to exploiting prior experiences for goal-directed learning with denser rewards. Drawing inspiration from this Toddler-Inspired Reward Transition, we set out to explore the implications of varying reward transitions when incorporated into Reinforcement Learning (RL) tasks. Central to our inquiry is the transition from sparse to potential-based dense rewards, which share optimal strategies regardless of reward changes. Through various experiments, including those in egocentric navigation and robotic arm manipulation tasks, we found that proper reward transitions significantly influence sample efficiency and success rates. Of particular note is the efficacy of the toddler-inspired Sparse-to-Dense (S2D) transition. Beyond these performance metrics, using Cross-Density Visualizer technique, we observed that transitions, especially the S2D, smooth the policy loss landscape, promoting wide minima that enhance generalization in RL models.
arxiv情報
著者 | Junseok Park,Yoonsung Kim,Hee Bin Yoo,Min Whoo Lee,Kibeom Kim,Won-Seok Choi,Minsu Lee,Byoung-Tak Zhang |
発行日 | 2024-03-18 09:43:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google