Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes

要約

マルコフ決定プロセス (MDP) に基づくマルチタスク強化学習 (RL) では、複数の MDP 間で共有される潜在構造の存在により、シングルタスク RL と比較してサンプル効率に大きな利点がもたらされることが示されています。
この論文では、そのような利点が、部分的に観測可能な MDP (POMDP) やより一般的な予測状態表現 (PSR) など、より一般的な逐次的意思決定問題にも拡張できるかどうかを調査します。
ここでの主な課題は、モデル空間が大きく複雑であるため、マルチタスク PSR のどのような種類の共通潜在構造がモデルの複雑さを軽減し、サンプル効率を向上させることができるかを特定することが困難であることです。
この目的を達成するために、タスクの共同モデル クラスを仮定し、$\eta$ 括弧番号の概念を使用してその複雑さを定量化します。
この数値は、タスクの類似性を把握するための一般的な指標としても機能し、シングルタスク RL に対するマルチタスクの利点を決定します。
まず、すべてのタスクが同じ観察空間とアクション空間を共有する、PSR を介した上流のマルチタスク学習を研究します。
我々は、すべての PSR に対して最適に近いポリシーを見つけるための効率的であることが証明されているアルゴリズム UMT-PSR を提案し、PSR の結合モデル クラスの $\eta$-ブラケット数がそれに比べて小さい場合にマルチタスク学習の利点が現れることを実証します
個人のシングルタスク学習。
また、マルチタスク学習の利点を享受する、小さな $\eta$ 括弧番号を持つマルチタスク PSR の例もいくつか提供します。
さらに、下流学習についても調査します。この学習では、エージェントは、類似性制約を介して上流タスクといくつかの共通点を共有する新しいターゲット タスクを学習する必要があります。
上流から学習した PSR を利用することで、最適に近いポリシーを確実に見つけるサンプル効率の高いアルゴリズムを開発します。

要約(オリジナル)

In multi-task reinforcement learning (RL) under Markov decision processes (MDPs), the presence of shared latent structures among multiple MDPs has been shown to yield significant benefits to the sample efficiency compared to single-task RL. In this paper, we investigate whether such a benefit can extend to more general sequential decision making problems, such as partially observable MDPs (POMDPs) and more general predictive state representations (PSRs). The main challenge here is that the large and complex model space makes it hard to identify what types of common latent structure of multi-task PSRs can reduce the model complexity and improve sample efficiency. To this end, we posit a joint model class for tasks and use the notion of $\eta$-bracketing number to quantify its complexity; this number also serves as a general metric to capture the similarity of tasks and thus determines the benefit of multi-task over single-task RL. We first study upstream multi-task learning over PSRs, in which all tasks share the same observation and action spaces. We propose a provably efficient algorithm UMT-PSR for finding near-optimal policies for all PSRs, and demonstrate that the advantage of multi-task learning manifests if the joint model class of PSRs has a smaller $\eta$-bracketing number compared to that of individual single-task learning. We also provide several example multi-task PSRs with small $\eta$-bracketing numbers, which reap the benefits of multi-task learning. We further investigate downstream learning, in which the agent needs to learn a new target task that shares some commonalities with the upstream tasks via a similarity constraint. By exploiting the learned PSRs from the upstream, we develop a sample-efficient algorithm that provably finds a near-optimal policy.

arxiv情報

著者 Ruiquan Huang,Yuan Cheng,Jing Yang,Vincent Tan,Yingbin Liang
発行日 2023-10-20 14:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク