要約
オフライン データセットから環境モデルを学習し、より多くの分布外モデル データを生成するモデルベースの強化学習 (RL) は、オフライン RL における分布シフトの問題に対する効果的なアプローチとなっています。
学習された環境と実際の環境との間にギャップがあるため、正確なオフライン データと不正確なモデル データのバランスを保つためにアルゴリズムに保守主義を組み込む必要があります。
現在のアルゴリズムの保守主義は、主にモデルの不確実性推定に依存しています。
ただし、不確実性の推定は信頼性が低く、特定のシナリオではパフォーマンスの低下につながります。また、以前の方法ではモデル データ間の差異が無視されており、これが大きな保守主義をもたらしています。
したがって、この論文では、上記の問題に対処するために、モデルの不確実性を推定せずに、穏やかに保守的なモデルベースのオフライン RL アルゴリズム (DOMAIN) を提案します。
DOMAIN は、モデル データ ペナルティを適応的に調整できるモデル サンプルの適応サンプリング分布を導入します。
この論文では、領域外の DOMAIN によって学習された Q 値が真の Q 値の下限であり、DOMAIN が以前のモデルベースのオフライン RL アルゴリズムよりも保守的でなく、セキュリティ ポリシーの改善が保証されていることを理論的に示します。
広範な実験の結果、DOMAIN は D4RL データセット ベンチマークで以前の RL アルゴリズムよりも優れたパフォーマンスを示し、一般化が必要なタスクでは他の RL アルゴリズムよりも優れたパフォーマンスを達成することが示されています。
要約(オリジナル)
Model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in offline RL. Due to the gap between the learned and actual environment, conservatism should be incorporated into the algorithm to balance accurate offline data and imprecise model data. The conservatism of current algorithms mostly relies on model uncertainty estimation. However, uncertainty estimation is unreliable and leads to poor performance in certain scenarios, and the previous methods ignore differences between the model data, which brings great conservatism. Therefore, this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm (DOMAIN) without estimating model uncertainty to address the above issues. DOMAIN introduces adaptive sampling distribution of model samples, which can adaptively adjust the model data penalty. In this paper, we theoretically demonstrate that the Q value learned by the DOMAIN outside the region is a lower bound of the true Q value, the DOMAIN is less conservative than previous model-based offline RL algorithms and has the guarantee of security policy improvement. The results of extensive experiments show that DOMAIN outperforms prior RL algorithms on the D4RL dataset benchmark, and achieves better performance than other RL algorithms on tasks that require generalization.
arxiv情報
著者 | Xiao-Yin Liu,Xiao-Hu Zhou,Xiao-Liang Xie,Shi-Qi Liu,Zhen-Qiu Feng,Hao Li,Mei-Jiang Gui,Tian-Yu Xiang,De-Xing Huang,Zeng-Guang Hou |
発行日 | 2024-04-25 11:15:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google