要約
従来の強化学習(RL)手法は、様々な逐次決定問題を解くことができる。しかし、非マルコフ型報酬仕様の設定において、複数のタスクに渡って予測可能な汎化政策を学習することは困難な問題である。我々は、各(サブ)政策が明確に定義された部分問題を解くように、後継特徴を用いて政策基盤を学習することを提案する。同じ部分問題の集合を含む有限状態オートマトン(FSA)によって記述されたタスクにおいて、これらの(部分)ポリシーの組み合わせは、追加の学習なしに最適解を生成するために利用できる。プランニングにより(サブ)ポリシーを組み合わせる他の手法とは対照的に、本手法は確率的環境においても漸近的に大域的最適性を達成する。
要約(オリジナル)
Conventional reinforcement learning (RL) methods can successfully solve a wide range of sequential decision problems. However, learning policies that can generalize predictably across multiple tasks in a setting with non-Markovian reward specifications is a challenging problem. We propose to use successor features to learn a policy basis so that each (sub)policy in it solves a well-defined subproblem. In a task described by a finite state automaton (FSA) that involves the same set of subproblems, the combination of these (sub)policies can then be used to generate an optimal solution without additional learning. In contrast to other methods that combine (sub)policies via planning, our method asymptotically attains global optimality, even in stochastic environments.
arxiv情報
著者 | Guillermo Infante,David Kuric,Anders Jonsson,Vicenç Gómez,Herke van Hoof |
発行日 | 2024-06-03 14:56:28+00:00 |
arxivサイト | arxiv_id(pdf) |