要約
オフライン強化学習 (RL) は、分布シフトの問題に直面しています。
この問題に対処するために、既存の研究は主に、学習されたポリシーと行動ポリシーの間の高度なポリシー制約を設計することに焦点を当てています。
ただし、これらの制約は均一なサンプリングを通じてパフォーマンスの良いアクションと劣ったアクションに等しく適用されるため、学習されたポリシーに悪影響を与える可能性があります。
この問題を軽減するために、私たちはオフライン優先エクスペリエンス リプレイ (OPER) を提案します。これは、価値の高い移行に優先順位を付けるように設計された一連の優先機能を備えており、トレーニング中により頻繁にアクセスできるようになります。
理論的分析を通じて、このクラスの優先関数が改善された動作ポリシーを誘発し、この改善されたポリシーに制約された場合、ポリシー制約のあるオフライン RL アルゴリズムがより良いソリューションを生み出す可能性が高いことを示します。
私たちは、適合値ネットワーク (OPER-A) に基づいて利点を推定するか、または迅速な計算のために軌道リターン (OPER-R) を利用することによって、優先順位の重みを取得する 2 つの実用的な戦略を開発します。
OPER は、オフライン RL アルゴリズム用のプラグアンドプレイ コンポーネントです。
ケーススタディとして、BC、TD3+BC、Onestep RL、CQL、IQL を含む 5 つの異なるアルゴリズムで OPER を評価します。
広範な実験により、OPER-A と OPER-R の両方がすべてのベースライン手法のパフォーマンスを大幅に向上させることが実証されました。
コードと優先度の重みは、https://github.com/sail-sg/OPER で入手できます。
要約(オリジナル)
Offline reinforcement learning (RL) is challenged by the distributional shift problem. To address this problem, existing works mainly focus on designing sophisticated policy constraints between the learned policy and the behavior policy. However, these constraints are applied equally to well-performing and inferior actions through uniform sampling, which might negatively affect the learned policy. To alleviate this issue, we propose Offline Prioritized Experience Replay (OPER), featuring a class of priority functions designed to prioritize highly-rewarding transitions, making them more frequently visited during training. Through theoretical analysis, we show that this class of priority functions induce an improved behavior policy, and when constrained to this improved policy, a policy-constrained offline RL algorithm is likely to yield a better solution. We develop two practical strategies to obtain priority weights by estimating advantages based on a fitted value network (OPER-A) or utilizing trajectory returns (OPER-R) for quick computation. OPER is a plug-and-play component for offline RL algorithms. As case studies, we evaluate OPER on five different algorithms, including BC, TD3+BC, Onestep RL, CQL, and IQL. Extensive experiments demonstrate that both OPER-A and OPER-R significantly improve the performance for all baseline methods. Codes and priority weights are availiable at https://github.com/sail-sg/OPER.
arxiv情報
著者 | Yang Yue,Bingyi Kang,Xiao Ma,Gao Huang,Shiji Song,Shuicheng Yan |
発行日 | 2023-06-08 17:56:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google