Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

要約

ほとんどのオフライン強化学習 (RL) メソッドは、分布外 (OOD
)アクションは、分布シフトによるエラーに悩まされます。
最近提案された \textit{In-sample Learning} パラダイム (つまり、IQL) は、データ サンプルのみを使用して分位点回帰によってポリシーを改善しますが、目に見えないアクションの価値関数をクエリせずに最適なポリシーを学習するため、非常に有望です。
ただし、このタイプの方法が価値関数の学習における分布シフトをどのように処理するかは不明のままです。
この作業では、サンプル内学習パラダイムが \textit{Implicit Value Regularization} (IVR) フレームワークの下で発生するという重要な発見を行います。
これにより、サンプル内学習パラダイムが機能する理由、つまり暗黙的な値の正則化をポリシーに適用する理由をより深く理解できます。
IVR フレームワークに基づいて、スパース $Q$ 学習 (SQL) と指数 $Q$ 学習 (EQL) という 2 つの実用的なアルゴリズムをさらに提案します。
サンプル方法。
IQL と比較すると、私たちのアルゴリズムは値関数の学習にスパース性を導入し、ノイズの多いデータ体制でより堅牢にすることがわかりました。
また、D4RL ベンチマーク データセットで SQL と EQL の有効性を検証し、小規模なデータ体制でそれらを CQL と比較することで、サンプル内学習の利点を示します。

要約(オリジナル)

Most offline reinforcement learning (RL) methods suffer from the trade-off between improving the policy to surpass the behavior policy and constraining the policy to limit the deviation from the behavior policy as computing $Q$-values using out-of-distribution (OOD) actions will suffer from errors due to distributional shift. The recently proposed \textit{In-sample Learning} paradigm (i.e., IQL), which improves the policy by quantile regression using only data samples, shows great promise because it learns an optimal policy without querying the value function of any unseen actions. However, it remains unclear how this type of method handles the distributional shift in learning the value function. In this work, we make a key finding that the in-sample learning paradigm arises under the \textit{Implicit Value Regularization} (IVR) framework. This gives a deeper understanding of why the in-sample learning paradigm works, i.e., it applies implicit value regularization to the policy. Based on the IVR framework, we further propose two practical algorithms, Sparse $Q$-learning (SQL) and Exponential $Q$-learning (EQL), which adopt the same value regularization used in existing works, but in a complete in-sample manner. Compared with IQL, we find that our algorithms introduce sparsity in learning the value function, making them more robust in noisy data regimes. We also verify the effectiveness of SQL and EQL on D4RL benchmark datasets and show the benefits of in-sample learning by comparing them with CQL in small data regimes.

arxiv情報

著者 Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan
発行日 2023-03-28 08:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク