Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

要約

モデルベースのオフライン強化学習 (RL) は目覚ましい進歩を遂げており、合成モデルのロールアウトによる一般化を改善するための有望な手段を提供しています。
既存の研究は主に、通常は悲観的マルコフ決定プロセス (P-MDP) の構築を通じて、政策最適化のために悲観主義を組み込むことに焦点を当てています。
ただし、P-MDP は、オフライン データセットのサポートを超えて配布外 (OOD) 領域でポリシーを学習することを妨げます。これにより、ダイナミクス モデルの一般化機能が十分に活用されなくなる可能性があります。
対照的に、我々は楽観的 MDP (O-MDP) の構築を提案します。
私たちは当初、より多くの OOD 展開を奨励することで楽観主義がもたらす潜在的な利点を観察しました。
この観察に動機付けられて、私たちは、シンプルかつ効果的なモデルベースのオフライン RL フレームワークである ORPO を紹介します。
ORPO は、悲観的なオフライン ポリシー最適化のための楽観的なモデル ロールアウトを生成します。
具体的には、より多くの OOD モデルのロールアウトをサンプリングするために、O-MDP で楽観的なロールアウト ポリシーをトレーニングします。
次に、サンプリングされた状態と行動のペアをペナルティ付きの報酬で再ラベル付けし、P-MDP の出力ポリシーを最適化します。
理論的には、ORPO でトレーニングされたポリシーのパフォーマンスが線形 MDP では下限に制限される可能性があることを示しています。
実験結果は、私たちのフレームワークが P-MDP ベースラインを 30% 大幅に上回り、広く使用されているベンチマークで最先端のパフォーマンスを達成していることを示しています。
さらに、ORPO は一般化が必要な問題において顕著な利点を示します。

要約(オリジナル)

Model-based offline reinforcement learning (RL) has made remarkable progress, offering a promising avenue for improving generalization with synthetic model rollouts. Existing works primarily focus on incorporating pessimism for policy optimization, usually via constructing a Pessimistic Markov Decision Process (P-MDP). However, the P-MDP discourages the policies from learning in out-of-distribution (OOD) regions beyond the support of offline datasets, which can under-utilize the generalization ability of dynamics models. In contrast, we propose constructing an Optimistic MDP (O-MDP). We initially observed the potential benefits of optimism brought by encouraging more OOD rollouts. Motivated by this observation, we present ORPO, a simple yet effective model-based offline RL framework. ORPO generates Optimistic model Rollouts for Pessimistic offline policy Optimization. Specifically, we train an optimistic rollout policy in the O-MDP to sample more OOD model rollouts. Then we relabel the sampled state-action pairs with penalized rewards and optimize the output policy in the P-MDP. Theoretically, we demonstrate that the performance of policies trained with ORPO can be lower-bounded in linear MDPs. Experimental results show that our framework significantly outperforms P-MDP baselines by a margin of 30%, achieving state-of-the-art performance on the widely-used benchmark. Moreover, ORPO exhibits notable advantages in problems that require generalization.

arxiv情報

著者 Yuanzhao Zhai,Yiying Li,Zijian Gao,Xudong Gong,Kele Xu,Dawei Feng,Ding Bo,Huaimin Wang
発行日 2024-01-11 13:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク