要約
オンラインの探索がコストまたは安全でない場合がありますが、データが限られているために高い認識論的不確実性に苦しんでいる場合、オフライン強化学習(RL)は重要です。
既存の方法は、固定された保守的な政策、適応性と一般化の制限に依存しています。
これに対処するために、斬新な二重ベイジアンオフラインモデルベース(MB)計画アプローチであるReflect-Then-Plan(RefPlan)を提案します。
Refplanは、ベイジアン後部推定として計画を再構築することにより、不確実性モデリングとMB計画を統合します。
展開時に、リアルタイムの観測を使用して環境ダイナミクスに対する信念を更新し、疎外を介してMB計画に不確実性を組み込みます。
標準ベンチマークの経験的結果は、Refplanが保守的なオフラインRLポリシーのパフォーマンスを大幅に改善することを示しています。
特に、RefPlanは、高い認識論的不確実性と限られたデータの下で堅牢なパフォーマンスを維持し、環境ダイナミクスの変化に対する回復力を示し、オフラインの学習ポリシーの柔軟性、一般化、および堅牢性を改善します。
要約(オリジナル)
Offline reinforcement learning (RL) is crucial when online exploration is costly or unsafe but often struggles with high epistemic uncertainty due to limited data. Existing methods rely on fixed conservative policies, restricting adaptivity and generalization. To address this, we propose Reflect-then-Plan (RefPlan), a novel doubly Bayesian offline model-based (MB) planning approach. RefPlan unifies uncertainty modeling and MB planning by recasting planning as Bayesian posterior estimation. At deployment, it updates a belief over environment dynamics using real-time observations, incorporating uncertainty into MB planning via marginalization. Empirical results on standard benchmarks show that RefPlan significantly improves the performance of conservative offline RL policies. In particular, RefPlan maintains robust performance under high epistemic uncertainty and limited data, while demonstrating resilience to changing environment dynamics, improving the flexibility, generalizability, and robustness of offline-learned policies.
arxiv情報
著者 | Jihwan Jeong,Xiaoyu Wang,Jingmin Wang,Scott Sanner,Pascal Poupart |
発行日 | 2025-06-06 17:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google