H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps

要約

高忠実度のシミュレーション環境や大量のオフライン データなしで強化学習 (RL) を使用して現実世界の複雑なタスクを解決することは、非常に困難な場合があります。
不完全なシミュレーション環境でトレーニングされたオンライン RL エージェントは、シミュレーションから現実への深刻な問題に悩まされる可能性があります。
オフライン RL アプローチはシミュレーターの必要性を回避しますが、多くの場合、オフライン データセットのサイズと品質に関して厳しい要件が課されます。
最近登場したオフラインとオンラインのハイブリッド RL は、限られたオフライン データと不完全なシミュレータを併用して、転送可能なポリシー学習を可能にする魅力的なフレームワークを提供します。
この論文では、H2O+ と呼ばれる新しいアルゴリズムを開発します。このアルゴリズムは、オフラインとオンラインの学習方法のさまざまな選択肢を橋渡しする優れた柔軟性を提供すると同時に、実際の環境とシミュレーション環境の間のダイナミクスのギャップも考慮します。
広範なシミュレーションと実際のロボット工学実験を通じて、高度なクロスドメインのオンラインおよびオフライン RL アルゴリズムよりも優れたパフォーマンスと柔軟性を実証します。

要約(オリジナル)

Solving real-world complex tasks using reinforcement learning (RL) without high-fidelity simulation environments or large amounts of offline data can be quite challenging. Online RL agents trained in imperfect simulation environments can suffer from severe sim-to-real issues. Offline RL approaches although bypass the need for simulators, often pose demanding requirements on the size and quality of the offline datasets. The recently emerged hybrid offline-and-online RL provides an attractive framework that enables joint use of limited offline data and imperfect simulator for transferable policy learning. In this paper, we develop a new algorithm, called H2O+, which offers great flexibility to bridge various choices of offline and online learning methods, while also accounting for dynamics gaps between the real and simulation environment. Through extensive simulation and real-world robotics experiments, we demonstrate superior performance and flexibility over advanced cross-domain online and offline RL algorithms.

arxiv情報

著者 Haoyi Niu,Tianying Ji,Bingqi Liu,Haocheng Zhao,Xiangyu Zhu,Jianying Zheng,Pengfei Huang,Guyue Zhou,Jianming Hu,Xianyuan Zhan
発行日 2023-09-22 08:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク