要約
オフライン強化学習 (RL) として知られる、固定データセットから可能な限り最良のポリシーを学習する問題を検討します。
既存のオフライン RL 作品の一般的な分類はポリシーの正則化であり、これは通常、動作ポリシーの配布またはサポートによって学習されたポリシーを制約します。
ただし、配布とサポートの制約は、どちらも特定の状態を考慮する際に、動作ポリシーと同様のアクションを選択することをポリシーに強制するため、過度に保守的です。
特に動作ポリシーが最適ではない場合、学習されたポリシーのパフォーマンスが制限されます。
この論文では、最も近い状態とアクションのペアに向けてポリシーを正規化する方がより効果的であることを発見し、データセット制約によるポリシー正規化 (PRDC) を提案します。
特定の状態でポリシーを更新する場合、PRDC はデータセット全体で最も近い状態アクション サンプルを検索し、このサンプルのアクションを使用してポリシーを制限します。
以前の作品とは異なり、PRDC はデータセットからの適切な動作でポリシーをガイドでき、特定の状態とともにデータセットに現れないアクションを選択できるようになります。
これはより緩やかな制約ですが、それでも配布外の行動から十分な保守主義を維持します。
実証的証拠と理論的分析により、PRDC は、パフォーマンス ギャップに限界があるオフライン RL の根本的に困難な価値の過大評価の問題を軽減できることが示されています。
さらに、一連の移動およびナビゲーションのタスクにおいて、PRDC は既存の方法と比較して最先端のパフォーマンスを達成します。
コードは https://github.com/LAMDA-RL/PRDC で入手できます。
要約(オリジナル)
We consider the problem of learning the best possible policy from a fixed dataset, known as offline Reinforcement Learning (RL). A common taxonomy of existing offline RL works is policy regularization, which typically constrains the learned policy by distribution or support of the behavior policy. However, distribution and support constraints are overly conservative since they both force the policy to choose similar actions as the behavior policy when considering particular states. It will limit the learned policy’s performance, especially when the behavior policy is sub-optimal. In this paper, we find that regularizing the policy towards the nearest state-action pair can be more effective and thus propose Policy Regularization with Dataset Constraint (PRDC). When updating the policy in a given state, PRDC searches the entire dataset for the nearest state-action sample and then restricts the policy with the action of this sample. Unlike previous works, PRDC can guide the policy with proper behaviors from the dataset, allowing it to choose actions that do not appear in the dataset along with the given state. It is a softer constraint but still keeps enough conservatism from out-of-distribution actions. Empirical evidence and theoretical analysis show that PRDC can alleviate offline RL’s fundamentally challenging value overestimation issue with a bounded performance gap. Moreover, on a set of locomotion and navigation tasks, PRDC achieves state-of-the-art performance compared with existing methods. Code is available at https://github.com/LAMDA-RL/PRDC
arxiv情報
著者 | Yuhang Ran,Yi-Chen Li,Fuxiang Zhang,Zongzhang Zhang,Yang Yu |
発行日 | 2023-08-15 16:14:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google