要約
ほとんどのオフライン強化学習 (RL) アルゴリズムは、(1) データセットを収集した動作ポリシーに対する期待されるパフォーマンスの向上と、(2) 分布外の性質から生じるリスクとの間のトレードオフを最大化するターゲット ポリシーを返します。
誘発された状態アクションの占有率。
したがって、ターゲット ポリシーのパフォーマンスは動作ポリシーのパフォーマンス、つまりデータセットの軌跡リターン分布に強く関係していることがわかります。
私たちは、大部分がローリターンの軌道と少数のハイリターンの軌道で構成される混合データセットでは、最先端のオフライン RL アルゴリズムがローリターンの軌道に過度に制限され、高性能の軌道を最大限に活用できないことを示します。
この問題を克服するために、確率的初期状態を持つ決定論的 MDP では、データセットのサンプリングを再重み付けして、動作ポリシーの収益がより高い人工データセットを誘導できることを示します。
この再重み付けされたサンプリング戦略は、オフライン RL アルゴリズムと組み合わせることができます。
さらに、行動ポリシーに対するパフォーマンス向上の機会が、データセット内の軌跡のリターンの正側の分散と相関していることを分析します。
CQL、IQL、および TD3+BC はこの潜在的なポリシー改善の一部しか達成できませんが、これらの同じアルゴリズムと再重み付けされたサンプリング戦略を組み合わせると、データセットが最大限に活用されることが経験的に示されています。
さらに、理論的な制限にもかかわらず、このアプローチは確率的環境でも依然として効率的である可能性があることを経験的に示しています。
コードは https://github.com/Improbable-AI/harness-offline-rl で入手できます。
要約(オリジナル)
Most offline reinforcement learning (RL) algorithms return a target policy maximizing a trade-off between (1) the expected performance gain over the behavior policy that collected the dataset, and (2) the risk stemming from the out-of-distribution-ness of the induced state-action occupancy. It follows that the performance of the target policy is strongly related to the performance of the behavior policy and, thus, the trajectory return distribution of the dataset. We show that in mixed datasets consisting of mostly low-return trajectories and minor high-return trajectories, state-of-the-art offline RL algorithms are overly restrained by low-return trajectories and fail to exploit high-performing trajectories to the fullest. To overcome this issue, we show that, in deterministic MDPs with stochastic initial states, the dataset sampling can be re-weighted to induce an artificial dataset whose behavior policy has a higher return. This re-weighted sampling strategy may be combined with any offline RL algorithm. We further analyze that the opportunity for performance improvement over the behavior policy correlates with the positive-sided variance of the returns of the trajectories in the dataset. We empirically show that while CQL, IQL, and TD3+BC achieve only a part of this potential policy improvement, these same algorithms combined with our reweighted sampling strategy fully exploit the dataset. Furthermore, we empirically demonstrate that, despite its theoretical limitation, the approach may still be efficient in stochastic environments. The code is available at https://github.com/Improbable-AI/harness-offline-rl.
arxiv情報
著者 | Zhang-Wei Hong,Pulkit Agrawal,Rémi Tachet des Combes,Romain Laroche |
発行日 | 2023-06-22 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google