DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

要約

スパースリワード補強学習(RL)は、幅広い非常に複雑なタスクをモデル化できます。
スパースリワードタスクの解決は、RLの中核的な前提であり、長老のクレジットの割り当てと組み合わされた効率的な探索を必要とする – これらの課題を克服することは、超人間の能力で自己改善エージェントを構築するための鍵です。
複雑で高次元のタスクを解決するには、ターゲットタスクに関連するより簡単なタスクを解決する必要があると主張します。
対照的に、ほとんどの以前の作業は、あらゆるタスクを解決する目的で探索的タスクを選択するための戦略を設計し、挑戦的な高次元の長距離タスクを扱いやすい探求にします。
効果的な探索に必要な方向感覚は、事前の情報を必要とせずに、既存のRLアルゴリズムから抽出できることがわかります。
この発見に基づいて、ターゲットタスクの方向に探索的目標を選択する、指示されたまばらな報酬の目標が非常に長いホリゾンRL(Discover)の方法を提案します。
発見を盗賊の原則的な探査に接続し、ターゲットタスクがターゲットまでのエージェントの初期距離の観点から達成可能になるまで、すべてのタスクのスペースの量とは無関係になるまで、時間を正式に境界します。
経験的には、高次元環境で徹底的な評価を実行します。
Discoverの指示された目標選択は、RLの以前の最先端の探査方法の範囲を超えた探査問題を解決することがわかります。

要約(オリジナル)

Sparse-reward reinforcement learning (RL) can model a wide range of highly complex tasks. Solving sparse-reward tasks is RL’s core premise – requiring efficient exploration coupled with long-horizon credit assignment – and overcoming these challenges is key for building self-improving agents with superhuman ability. We argue that solving complex and high-dimensional tasks requires solving simpler tasks that are relevant to the target task. In contrast, most prior work designs strategies for selecting exploratory tasks with the objective of solving any task, making exploration of challenging high-dimensional, long-horizon tasks intractable. We find that the sense of direction, necessary for effective exploration, can be extracted from existing RL algorithms, without needing any prior information. Based on this finding, we propose a method for directed sparse-reward goal-conditioned very long-horizon RL (DISCOVER), which selects exploratory goals in the direction of the target task. We connect DISCOVER to principled exploration in bandits, formally bounding the time until the target task becomes achievable in terms of the agent’s initial distance to the target, but independent of the volume of the space of all tasks. Empirically, we perform a thorough evaluation in high-dimensional environments. We find that the directed goal selection of DISCOVER solves exploration problems that are beyond the reach of prior state-of-the-art exploration methods in RL.

arxiv情報

著者 Leander Diaz-Bone,Marco Bagatella,Jonas Hübotter,Andreas Krause
発行日 2025-05-26 11:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク