Supported Trust Region Optimization for Offline Reinforcement Learning

要約

オフライン強化学習には、分布外の問題と外挿誤差が発生します。
ほとんどのポリシー制約メソッドは、動作ポリシーに対してトレーニングされたポリシーの密度を正規化しますが、これはほとんどの場合制限が厳しすぎます。
我々は、サポート付き信頼領域最適化 (STR) を提案します。これは、動作ポリシーのサポート内に制約されたポリシーを使用して信頼領域ポリシーの最適化を実行し、より制限の少ないサポート制約を享受します。
近似やサンプリング誤差がないと仮定すると、STR は、データセット内の最適なサポート制約ポリシーに収束するまで厳密なポリシー改善を保証することを示します。
さらに、両方のエラーが組み込まれていても、STR は各ステップで安全なポリシーの改善を保証します。
実験結果は STR の理論を検証し、MuJoCo 移動ドメインやさらに困難な AntMaze ドメインでの最先端のパフォーマンスを実証します。

要約(オリジナル)

Offline reinforcement learning suffers from the out-of-distribution issue and extrapolation error. Most policy constraint methods regularize the density of the trained policy towards the behavior policy, which is too restrictive in most cases. We propose Supported Trust Region optimization (STR) which performs trust region policy optimization with the policy constrained within the support of the behavior policy, enjoying the less restrictive support constraint. We show that, when assuming no approximation and sampling error, STR guarantees strict policy improvement until convergence to the optimal support-constrained policy in the dataset. Further with both errors incorporated, STR still guarantees safe policy improvement for each step. Empirical results validate the theory of STR and demonstrate its state-of-the-art performance on MuJoCo locomotion domains and much more challenging AntMaze domains.

arxiv情報

著者 Yixiu Mao,Hongchang Zhang,Chen Chen,Yi Xu,Xiangyang Ji
発行日 2023-11-15 13:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク