要約
スカラー報酬信号を用いた強化学習(RL)エージェントのトレーニングは、環境に疎な報酬や非マルコフ報酬がある場合、しばしば実行不可能である。さらに、訓練前にこれらの報酬関数を手作りすることは、特に環境のダイナミクスが部分的にしか分かっていない場合に、誤仕様化しやすい。本論文では、未知の環境におけるエージェントの経験のエピソードから、簡潔な有限状態「タスクオートマトン」として非マルコフのタスク仕様を学習するための新しいパイプラインを提案する。我々は2つの重要なアルゴリズム的洞察を活用する。第一に、積MDPを部分観測可能MDPとして扱い、隠れマルコフモデルを学習するためのよく知られたBaum-Welchアルゴリズムを用いることで、仕様のオートマトンと環境のMDP(両方とも最初は未知)からなる積MDPを学習する。第二に、学習されたプロダクトMDPからタスクオートマトン(決定論的有限オートマトンと仮定)を抽出する新しい方法を提案する。学習されたタスクオートマトンは、タスクをその構成要素であるサブタスクに分解することを可能にし、RLエージェントが後に最適な政策を合成する速度を向上させる。また、高レベルの環境とタスクの特徴を解釈可能に符号化することで、エージェントが誤指定のない首尾一貫したタスクを学習したことを人間が容易に検証できる。さらに、学習されたオートマトンは環境に依存しないため、転移学習に適している。最後に、異なる環境とタスクにおける我々のアルゴリズムの性能を説明するために、2つのベースラインと比較した実験結果を提供する。
要約(オリジナル)
Training reinforcement learning (RL) agents using scalar reward signals is often infeasible when an environment has sparse and non-Markovian rewards. Moreover, handcrafting these reward functions before training is prone to misspecification, especially when the environment’s dynamics are only partially known. This paper proposes a novel pipeline for learning non-Markovian task specifications as succinct finite-state `task automata’ from episodes of agent experience within unknown environments. We leverage two key algorithmic insights. First, we learn a product MDP, a model composed of the specification’s automaton and the environment’s MDP (both initially unknown), by treating the product MDP as a partially observable MDP and using the well-known Baum-Welch algorithm for learning hidden Markov models. Second, we propose a novel method for distilling the task automaton (assumed to be a deterministic finite automaton) from the learnt product MDP. Our learnt task automaton enables the decomposition of a task into its constituent sub-tasks, which improves the rate at which an RL agent can later synthesise an optimal policy. It also provides an interpretable encoding of high-level environmental and task features, so a human can readily verify that the agent has learnt coherent tasks with no misspecifications. In addition, we take steps towards ensuring that the learnt automaton is environment-agnostic, making it well-suited for use in transfer learning. Finally, we provide experimental results compared with two baselines to illustrate our algorithm’s performance in different environments and tasks.
arxiv情報
著者 | Alessandro Abate,Yousif Almulla,James Fox,David Hyland,Michael Wooldridge |
発行日 | 2023-10-03 16:46:16+00:00 |
arxivサイト | arxiv_id(pdf) |