Reward-Respecting Subtasks for Model-Based Reinforcement Learning

要約

人工知能の野心的な目標を達成するには、状態と時間を抽象化した世界のモデルを使用した計画を強化学習に含める必要があります。
深層学習は状態の抽象化で進歩しましたが、オプション フレームワークに基づいた理論が広範囲に開発されているにもかかわらず、時間的抽象化はほとんど使用されていません。
その理由の 1 つは、考えられるオプションの空間が膨大であり、オプション発見のために以前に提案された方法では、オプション モデルが計画にどのように使用されるかを考慮していないことです。
オプションは通常、ボトルネック状態に到達する、または報酬以外の感覚信号の累積和を最大化するなど、補助的なタスクを提示することによって発見されます。
各サブタスクが解決されてオプションが生成され、オプションのモデルが学習されて計画プロセスで利用できるようになります。
これまでのほとんどの研究では、サブタスクは元の問題の報酬を無視していましたが、私たちは、元の報酬に加えて、オプション終了時の状態の特徴に基づくボーナスを使用するサブタスクを提案します。
このような報酬を考慮したサブタスクから得られたオプション モデルは、固有オプション、ボトルネック状態に基づく最短経路オプション、またはオプション批判者によって生成された報酬を考慮したオプションよりも、計画に役立つ可能性がはるかに高いことを示します。
報酬を考慮したサブタスクは、選択肢の空間を強く制限するため、選択肢発見の問題に対する部分的な解決策も提供します。
最後に、標準アルゴリズムと一般的な値関数を使用して、値、ポリシー、オプション、モデルをすべてオンラインおよびポリシー外で学習する方法を示します。

要約(オリジナル)

To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress with state abstraction, but temporal abstraction has rarely been used, despite extensively developed theory based on the options framework. One reason for this is that the space of possible options is immense, and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks, such as reaching a bottleneck state or maximizing the cumulative sum of a sensory signal other than reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. In most previous work, the subtasks ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option terminates. We show that option models obtained from such reward-respecting subtasks are much more likely to be useful in planning than eigenoptions, shortest path options based on bottleneck states, or reward-respecting options generated by the option-critic. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how values, policies, options, and models can all be learned online and off-policy using standard algorithms and general value functions.

arxiv情報

著者 Richard S. Sutton,Marlos C. Machado,G. Zacharias Holland,David Szepesvari,Finbarr Timbers,Brian Tanner,Adam White
発行日 2023-07-07 05:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク