要約
オフラインの強化学習 (RL) は、分布外の状態とアクションのペアが過大評価されているため、既存のポリシー外のアクターと批評家の方法が十分に機能しない挑戦的な設定です。
したがって、学習したポリシーをオフラインのデータセット (または動作ポリシー) に近づけるために、さまざまな追加の拡張が提案されています。
この作業では、オフラインの単調なポリシーの改善の分析から始めて、一部のオンライン ポリシー アルゴリズムがオフラインの RL を自然に解決できるという驚くべき発見を得ることができます。
具体的には、これらのポリシーに基づくアルゴリズムの固有の保守性は、オフラインの RL メソッドが過大評価を克服するために必要なものとまったく同じです。
これに基づいて、PPO と比較して追加の制約や正則化を導入することなくオフライン RL を解決する Behavior Proximal Policy Optimization (BPPO) を提案します。
D4RL ベンチマークでの広範な実験は、この非常に簡潔な方法が最先端のオフライン RL アルゴリズムよりも優れていることを示しています。
私たちの実装は https://github.com/Dragon-Zhuang/BPPO で入手できます。
要約(オリジナル)
Offline reinforcement learning (RL) is a challenging setting where existing off-policy actor-critic methods perform poorly due to the overestimation of out-of-distribution state-action pairs. Thus, various additional augmentations are proposed to keep the learned policy close to the offline dataset (or the behavior policy). In this work, starting from the analysis of offline monotonic policy improvement, we get a surprising finding that some online on-policy algorithms are naturally able to solve offline RL. Specifically, the inherent conservatism of these on-policy algorithms is exactly what the offline RL method needs to overcome the overestimation. Based on this, we propose Behavior Proximal Policy Optimization (BPPO), which solves offline RL without any extra constraint or regularization introduced compared to PPO. Extensive experiments on the D4RL benchmark indicate this extremely succinct method outperforms state-of-the-art offline RL algorithms. Our implementation is available at https://github.com/Dragon-Zhuang/BPPO.
arxiv情報
著者 | Zifeng Zhuang,Kun Lei,Jinxin Liu,Donglin Wang,Yilang Guo |
発行日 | 2023-02-22 11:49:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google