A Connection between One-Step Regularization and Critic Regularization in Reinforcement Learning

要約

限られたデータを使用する他の機械学習の問題と同様、効果的なオフライン RL アルゴリズムでは、過剰適合を避けるために慎重な正則化が必要です。
ワンステップ手法はポリシー改善の 1 ステップだけを実行することで正則化を実行しますが、批評家正則化手法は、正規化された目的を使用してポリシー改善の多くのステップを実行します。
これらの方法は異なるように見えます。
アドバンテージ重み付け回帰や条件付き動作クローニングなどのワンステップ手法では、ポリシーの反復が 1 ステップだけで切り捨てられます。
この「早期停止」により、ワンステップ RL はシンプルかつ安定になりますが、漸近的なパフォーマンスが制限される可能性があります。
クリティカル正則化には通常、より多くのコンピューティングが必要ですが、魅力的な下限保証が付いています。
この論文では、これらの手法間の密接な関係を描きます。正則化係数 1 でマルチステップ クリティカル正則化手法を適用すると、ワンステップ RL と同じポリシーが得られます。
実際の実装は私たちの仮定に違反し、批評家の正則化は通常、より小さな正則化係数で適用されますが、それでも私たちの実験は、私たちの分析が一般的に使用されるハイパーパラメーターを使用した実用的なオフライン RL 手法 (CQL およびワンステップ RL) について正確でテスト可能な予測を行うことを示しています。
私たちの結果は、すべての問題はポリシー改善の 1 ステップで解決できるが、むしろ 1 ステップ RL が、強力な正則化を必要とする RL 問題についての批判的正則化と競合する可能性があるということです。

要約(オリジナル)

As with any machine learning problem with limited data, effective offline RL algorithms require careful regularization to avoid overfitting. One-step methods perform regularization by doing just a single step of policy improvement, while critic regularization methods do many steps of policy improvement with a regularized objective. These methods appear distinct. One-step methods, such as advantage-weighted regression and conditional behavioral cloning, truncate policy iteration after just one step. This “early stopping” makes one-step RL simple and stable, but can limit its asymptotic performance. Critic regularization typically requires more compute but has appealing lower-bound guarantees. In this paper, we draw a close connection between these methods: applying a multi-step critic regularization method with a regularization coefficient of 1 yields the same policy as one-step RL. While practical implementations violate our assumptions and critic regularization is typically applied with smaller regularization coefficients, our experiments nevertheless show that our analysis makes accurate, testable predictions about practical offline RL methods (CQL and one-step RL) with commonly-used hyperparameters. Our results that every problem can be solved with a single step of policy improvement, but rather that one-step RL might be competitive with critic regularization on RL problems that demand strong regularization.

arxiv情報

著者 Benjamin Eysenbach,Matthieu Geist,Sergey Levine,Ruslan Salakhutdinov
発行日 2023-07-24 17:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク