要約
Renforce Learning(RL)は、ロボット制御における印象的な能力を実証していますが、サンプルの複雑さ、安全性の懸念、SIMからリアルのギャップのために困難なままです。
オフラインRLは、事前に収集されたデータから学習することにより、リスクの高い実世界の探索の必要性を排除しますが、分布シフトに苦しみ、政策の一般化を制限します。
モデルベースのRL(MBRL)は、合成ロールアウトの予測モデルを活用することによりこれに対処しますが、既存のアプローチには強力な不確実性の推定が欠けていることが多く、オフライン設定で複合エラーにつながります。
オフラインロボットワールドモデル(RWM-O)を紹介します。これは、物理シミュレーターに依存せずにポリシー学習を改善するための認識論的不確実性を明示的に推定するモデルベースのアプローチです。
これらの不確実性の推定値をポリシーの最適化に統合することにより、私たちのアプローチは信頼できない遷移を罰し、モデルのエラーへの過剰適合を減らし、安定性を高めます。
実験結果は、RWM-Oが一般化と安全性を改善し、現実世界のデータから純粋にポリシー学習を可能にし、ロボット工学のためのスケーラブルなデータ効率の良いRLを進めることを示しています。
要約(オリジナル)
Reinforcement Learning (RL) has demonstrated impressive capabilities in robotic control but remains challenging due to high sample complexity, safety concerns, and the sim-to-real gap. While offline RL eliminates the need for risky real-world exploration by learning from pre-collected data, it suffers from distributional shift, limiting policy generalization. Model-Based RL (MBRL) addresses this by leveraging predictive models for synthetic rollouts, yet existing approaches often lack robust uncertainty estimation, leading to compounding errors in offline settings. We introduce Offline Robotic World Model (RWM-O), a model-based approach that explicitly estimates epistemic uncertainty to improve policy learning without reliance on a physics simulator. By integrating these uncertainty estimates into policy optimization, our approach penalizes unreliable transitions, reducing overfitting to model errors and enhancing stability. Experimental results show that RWM-O improves generalization and safety, enabling policy learning purely from real-world data and advancing scalable, data-efficient RL for robotics.
arxiv情報
著者 | Chenhao Li,Andreas Krause,Marco Hutter |
発行日 | 2025-04-23 12:58:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google