要約
強化学習 (RL) アルゴリズムは、現在の最良の戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを取ることを目的としています。
最も一般的な RL アルゴリズムは無向探索を使用します。つまり、アクションのランダムなシーケンスを選択します。
探究は、好奇心やモデルの認識論的不確実性など、本質的な報酬を使用して指示することもできます。
ただし、タスクと本質的な報酬のバランスを効果的に調整することは困難であり、多くの場合タスクに依存します。
この作業では、内部探索と外部探索のバランスを取るためのフレームワーク MaxInfoRL を導入します。
MaxInfoRL は、基礎となるタスクに関する情報獲得などの固有の報酬を最大化することで、探索を有益な遷移へと導きます。
ボルツマン探索と組み合わせると、このアプローチは、値関数の最大化と、状態、報酬、アクションに関するエントロピーの最大化を自然にトレードオフします。
私たちのアプローチが、複数の腕を持った盗賊の単純化された設定でサブリニアリリメントを達成することを示します。
次に、この一般的な定式化を、連続状態アクション空間のさまざまなオフポリシー モデルフリー RL 手法に適用し、困難な探索問題や視覚制御タスクなどの複雑なシナリオにわたって優れたパフォーマンスを達成する新しいアルゴリズムを生み出します。
要約(オリジナル)
Reinforcement learning (RL) algorithms aim to balance exploiting the current best strategy with exploring new options that could lead to higher rewards. Most common RL algorithms use undirected exploration, i.e., select random sequences of actions. Exploration can also be directed using intrinsic rewards, such as curiosity or model epistemic uncertainty. However, effectively balancing task and intrinsic rewards is challenging and often task-dependent. In this work, we introduce a framework, MaxInfoRL, for balancing intrinsic and extrinsic exploration. MaxInfoRL steers exploration towards informative transitions, by maximizing intrinsic rewards such as the information gain about the underlying task. When combined with Boltzmann exploration, this approach naturally trades off maximization of the value function with that of the entropy over states, rewards, and actions. We show that our approach achieves sublinear regret in the simplified setting of multi-armed bandits. We then apply this general formulation to a variety of off-policy model-free RL methods for continuous state-action spaces, yielding novel algorithms that achieve superior performance across hard exploration problems and complex scenarios such as visual control tasks.
arxiv情報
著者 | Bhavya Sukhija,Stelian Coros,Andreas Krause,Pieter Abbeel,Carmelo Sferrazza |
発行日 | 2024-12-16 18:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google