要約
タイトル:後継者表現を用いた強化学習における時間抽象化
要約:
– 時間的抽象化を複数のレベルで処理できることは知能の主要な属性の1つである。
– 強化学習においては、オプションと呼ばれる時間的に拡張された行動のコースでモデル化されることがよくある。
– しかしながら、オプションフレームワークに基づくアプローチは、事前に合理的なオプションセットが既知であることを前提としている。
– この場合、検討すべきオプションがないため、確定的な答えは存在しない。
– 本論文では、後継者表現(SR)は、状態訪問パターンに基づいて状態をエンコードするための自然な基盤と見なせ、時間的抽象化の発見と使用に適していると主張する。
– この主張を支持するために、SRを使用して時間的に拡張された探索または計画を促進するオプションを発見できる一般的なフレームワークを提案する。
– このフレームワークでは、エージェントの表現が有用なオプションを識別し、その次に表現をさらに改良するために使用される。
– また、SRがオプションのセットを複合的に拡大することを可能にする方法も説明する。
– 私たちの実験の結果は、オプション発見における重要な設計上の決定事項について明らかにし、SRを利用した異なる方法のシナジーを示している。
要約(オリジナル)
Reasoning at multiple levels of temporal abstraction is one of the key attributes of intelligence. In reinforcement learning, this is often modeled through temporally extended courses of actions called options. Options allow agents to make predictions and to operate at different levels of abstraction within an environment. Nevertheless, approaches based on the options framework often start with the assumption that a reasonable set of options is known beforehand. When this is not the case, there are no definitive answers for which options one should consider. In this paper, we argue that the successor representation (SR), which encodes states based on the pattern of state visitation that follows them, can be seen as a natural substrate for the discovery and use of temporal abstractions. To support our claim, we take a big picture view of recent results, showing how the SR can be used to discover options that facilitate either temporally-extended exploration or planning. We cast these results as instantiations of a general framework for option discovery in which the agent’s representation is used to identify useful options, which are then used to further improve its representation. This results in a virtuous, never-ending, cycle in which both the representation and the options are constantly refined based on each other. Beyond option discovery itself, we also discuss how the SR allows us to augment a set of options into a combinatorially large counterpart without additional learning. This is achieved through the combination of previously learned options. Our empirical evaluation focuses on options discovered for exploration and on the use of the SR to combine them. The results of our experiments shed light on important design decisions involved in the definition of options and demonstrate the synergy of different methods based on the SR, such as eigenoptions and the option keyboard.
arxiv情報
著者 | Marlos C. Machado,Andre Barreto,Doina Precup,Michael Bowling |
発行日 | 2023-04-11 21:03:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI