要約
タイトル:強化学習エージェントのためのオートマトンによるカリキュラム生成
要約:
– 強化学習では、長い時間軸を持つタスクを学習するのは困難である。
– ロジカルなタスク仕様から報酬関数を自動生成する方法が提案されているが、長い時間軸を持つタスクに対してはスケーリングが困難である。
– カリキュラムを使用することで、エージェントの学習スピードを向上させることができるが、カリキュラムを自動生成することは未解決の問題である。
– そこで、オートマトンによるカリキュラム学習(AGCL)という新しい方法を提案する。これは、仕様をDeterministic Finite Automaton(DFA)としてエンコードし、それを使用してObject-Oriented MDP(OOMDP)表現でカリキュラムを生成するものである。
– AGCLを使用して生成されたカリキュラムは、グリッドワールドや物理ベースのシミュレーションロボティクスドメインで実験され、状態に基づく最新のカリキュラム学習(たとえば、教師-生徒やセルフプレイ)や、オートマトンによる強化学習のベースライン(たとえば、報酬マシンのQ学習)よりも、複雑なシーケンシャル決定問題に対する閾値時間の性能が向上することを示した。
– さらに、AGCLはタスクのOOMDPの説明にノイズがある場合や、タスクの目的の論理的仕様にはモデル化されていない分散オブジェクトが存在する場合でも良好なパフォーマンスを発揮することが示されている。
要約(オリジナル)
Despite advances in Reinforcement Learning, many sequential decision making tasks remain prohibitively expensive and impractical to learn. Recently, approaches that automatically generate reward functions from logical task specifications have been proposed to mitigate this issue; however, they scale poorly on long-horizon tasks (i.e., tasks where the agent needs to perform a series of correct actions to reach the goal state, considering future transitions while choosing an action). Employing a curriculum (a sequence of increasingly complex tasks) further improves the learning speed of the agent by sequencing intermediate tasks suited to the learning capacity of the agent. However, generating curricula from the logical specification still remains an unsolved problem. To this end, we propose AGCL, Automaton-guided Curriculum Learning, a novel method for automatically generating curricula for the target task in the form of Directed Acyclic Graphs (DAGs). AGCL encodes the specification in the form of a deterministic finite automaton (DFA), and then uses the DFA along with the Object-Oriented MDP (OOMDP) representation to generate a curriculum as a DAG, where the vertices correspond to tasks, and edges correspond to the direction of knowledge transfer. Experiments in gridworld and physics-based simulated robotics domains show that the curricula produced by AGCL achieve improved time-to-threshold performance on a complex sequential decision-making problem relative to state-of-the-art curriculum learning (e.g, teacher-student, self-play) and automaton-guided reinforcement learning baselines (e.g, Q-Learning for Reward Machines). Further, we demonstrate that AGCL performs well even in the presence of noise in the task’s OOMDP description, and also when distractor objects are present that are not modeled in the logical specification of the tasks’ objectives.
arxiv情報
著者 | Yash Shukla,Abhishek Kulkarni,Robert Wright,Alvaro Velasquez,Jivko Sinapov |
発行日 | 2023-04-11 15:14:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI