要約
オフライン強化学習 (RL) は、分布外 (OOD) アクションによって引き起こされる外挿誤差という重大な課題に直面しています。
Implicit Q-Learning (IQL) アルゴリズムは期待値回帰を採用してサンプル内学習を実現し、OOD アクションに関連するリスクを効果的に軽減します。
ただし、ポリシー評価の固定ハイパーパラメーターと密度ベースのポリシー改善手法により、全体の効率が制限されます。
この論文では、サポート制約で強化された射影 IQL アルゴリズムである Proj-IQL を提案します。
ポリシー評価フェーズでは、Proj-IQL は、サンプル内学習と期待値回帰フレームワークを維持しながら、ベクトル投影を通じて 1 ステップ アプローチを複数ステップ アプローチに一般化します。
ポリシー改善フェーズでは、Proj-IQL はポリシー評価アプローチとより整合性の高いサポート制約を導入します。
さらに、我々は、Proj-IQL が単調なポリシー改善を保証し、優れたアクションに対する段階的により厳密な基準を享受できることを理論的に実証します。
実証結果は、Proj-IQL が、特に困難なナビゲーション ドメインにおいて、D4RL ベンチマークで最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Offline Reinforcement Learning (RL) faces a critical challenge of extrapolation errors caused by out-of-distribution (OOD) actions. Implicit Q-Learning (IQL) algorithm employs expectile regression to achieve in-sample learning, effectively mitigating the risks associated with OOD actions. However, the fixed hyperparameter in policy evaluation and density-based policy improvement method limit its overall efficiency. In this paper, we propose Proj-IQL, a projective IQL algorithm enhanced with the support constraint. In the policy evaluation phase, Proj-IQL generalizes the one-step approach to a multi-step approach through vector projection, while maintaining in-sample learning and expectile regression framework. In the policy improvement phase, Proj-IQL introduces support constraint that is more aligned with the policy evaluation approach. Furthermore, we theoretically demonstrate that Proj-IQL guarantees monotonic policy improvement and enjoys a progressively more rigorous criterion for superior actions. Empirical results demonstrate the Proj-IQL achieves state-of-the-art performance on D4RL benchmarks, especially in challenging navigation domains.
arxiv情報
著者 | Xinchen Han,Hossam Afifi,Michel Marot |
発行日 | 2025-01-15 16:17:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google