H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps

要約

高忠実度のシミュレーション環境や大量のオフラインデータを使用せずに、補強学習(RL)を使用した実際の複雑なタスクを解決することは非常に困難です。
不完全なシミュレーション環境でトレーニングされたオンラインRLエージェントは、深刻なSIMからリアルの問題に苦しむ可能性があります。
オフラインRLがアプローチしますが、シミュレーターの必要性を回避しますが、多くの場合、オフラインデータセットのサイズと品質に要件が必要です。
最近登場したハイブリッドオフラインとオンラインRLは、譲渡可能なポリシー学習のために限られたオフラインデータと不完全なシミュレーターを共同で使用できる魅力的なフレームワークを提供します。
このホワイトペーパーでは、H2O+と呼ばれる新しいアルゴリズムを開発します。これは、オフラインおよびオンライン学習方法のさまざまな選択肢を橋渡しすると同時に、実際のシミュレーション環境とシミュレーション環境の間のダイナミクスギャップを説明するための大きな柔軟性を提供します。
広範なシミュレーションと現実世界のロボット工学実験により、オンラインおよびオフラインのRLアルゴリズムよりも優れたパフォーマンスと柔軟性を示します。

要約(オリジナル)

Solving real-world complex tasks using reinforcement learning (RL) without high-fidelity simulation environments or large amounts of offline data can be quite challenging. Online RL agents trained in imperfect simulation environments can suffer from severe sim-to-real issues. Offline RL approaches although bypass the need for simulators, often pose demanding requirements on the size and quality of the offline datasets. The recently emerged hybrid offline-and-online RL provides an attractive framework that enables joint use of limited offline data and imperfect simulator for transferable policy learning. In this paper, we develop a new algorithm, called H2O+, which offers great flexibility to bridge various choices of offline and online learning methods, while also accounting for dynamics gaps between the real and simulation environment. Through extensive simulation and real-world robotics experiments, we demonstrate superior performance and flexibility over advanced cross-domain online and offline RL algorithms.

arxiv情報

著者 Haoyi Niu,Tianying Ji,Bingqi Liu,Haocheng Zhao,Xiangyu Zhu,Jianying Zheng,Pengfei Huang,Guyue Zhou,Jianming Hu,Xianyuan Zhan
発行日 2025-04-16 06:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク