要約
モデルベースの方法は、オフライン強化学習 (RL) への効果的なアプローチを提供します。
彼らは相互作用の経験から環境力学モデルを学習し、学習したモデルに基づいてポリシーの最適化を実行します。
ただし、以前のモデルベースのオフライン RL メソッドには長期的な予測機能がなく、多段階の軌跡を生成するときに大きなエラーが発生しました。
この問題に対処するには、オフライン データセットに基づいて信頼性の高い長期軌道を生成できるシーケンス モデリング アーキテクチャである Environment Transformer を開発します。
次に、ENvironment TRansformer によってダイナミクス モデルと報酬関数を学習し、Offline PolicY 最適化を実行する、新しいモデルベースのオフライン RL アルゴリズム、ENTROPY を提案します。
MuJoCo 連続制御 RL 環境で提案手法を評価します。
結果は、ENTROPY が最先端のモデルベースおよびモデルフリーのオフライン RL メソッドと同等またはそれ以上に機能し、既存のモデルベースのオフライン メソッドと比較してより強力な長期軌道予測機能を実証することを示しています。
要約(オリジナル)
Model-based methods provide an effective approach to offline reinforcement learning (RL). They learn an environmental dynamics model from interaction experiences and then perform policy optimization based on the learned model. However, previous model-based offline RL methods lack long-term prediction capability, resulting in large errors when generating multi-step trajectories. We address this issue by developing a sequence modeling architecture, Environment Transformer, which can generate reliable long-horizon trajectories based on offline datasets. We then propose a novel model-based offline RL algorithm, ENTROPY, that learns the dynamics model and reward function by ENvironment TRansformer and performs Offline PolicY optimization. We evaluate the proposed method on MuJoCo continuous control RL environments. Results show that ENTROPY performs comparably or better than the state-of-the-art model-based and model-free offline RL methods and demonstrates more powerful long-term trajectory prediction capability compared to existing model-based offline methods.
arxiv情報
著者 | Pengqin Wang,Meixin Zhu,Shaojie Shen |
発行日 | 2023-03-07 11:26:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google