要約
構成的強化学習は、長期にわたる複雑なタスクを実行するためのトレーニング ポリシーの有望なアプローチです。
通常、高レベルのタスクは一連のサブタスクに分解され、各サブタスクを実行するように個別のポリシーがトレーニングされます。
このペーパーでは、サブタスク ポリシーをあらゆるタスクの実行に使用できるようにトレーニングするという問題に焦点を当てます。
ここでは、タスクは一連のサブタスクによって与えられます。
私たちは、平均的なケースのパフォーマンスではなく、すべてのタスクにわたって最悪のケースのパフォーマンスを最大化することを目指しています。
この問題を、敵対者が一連のサブタスクを選択する 2 エージェントのゼロサム ゲームとして定式化します。
このゲームを解決するために 2 つの RL アルゴリズムを提案します。1 つは既存のマルチエージェント RL アルゴリズムを設定に適応させたもので、もう 1 つはサブタスク ポリシーの並列トレーニングを可能にする非同期バージョンです。
私たちは、連続的な状態とアクションを持つ 2 つのマルチタスク環境でアプローチを評価し、アルゴリズムが最先端のベースラインを上回るパフォーマンスを示すことを実証します。
要約(オリジナル)
Compositional reinforcement learning is a promising approach for training policies to perform complex long-horizon tasks. Typically, a high-level task is decomposed into a sequence of subtasks and a separate policy is trained to perform each subtask. In this paper, we focus on the problem of training subtask policies in a way that they can be used to perform any task; here, a task is given by a sequence of subtasks. We aim to maximize the worst-case performance over all tasks as opposed to the average-case performance. We formulate the problem as a two agent zero-sum game in which the adversary picks the sequence of subtasks. We propose two RL algorithms to solve this game: one is an adaptation of existing multi-agent RL algorithms to our setting and the other is an asynchronous version which enables parallel training of subtask policies. We evaluate our approach on two multi-task environments with continuous states and actions and demonstrate that our algorithms outperform state-of-the-art baselines.
arxiv情報
著者 | Kishor Jothimurugan,Steve Hsu,Osbert Bastani,Rajeev Alur |
発行日 | 2023-06-08 17:31:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google