要約
オフライン強化学習(RL)メソッドは、以前の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学習します。
ただし、トレーニング中のオンラインインタラクションがないため、分布シフトの処理課題に直面しています。
この目的のために、拡散ポリシー(SRDP)の状態再構成という名前の新しい方法を提案します。これは、分散除外(OOD)一般化の問題に対処するために、最近のクラスの拡散ポリシーに状態再構成機能学習を組み込んでいます。
私たちの方法は、OOD状態によって引き起こされる分布シフトを軽減するために、一般化可能な状態表現の学習を促進します。
SRDPのOOD一般化とより速い収束を説明するために、新しい2Dマルチモーダルコンテキストバンディット環境を設計し、6-Dof RealWld UR10ロボットでそれを実現し、シミュレーションでそれを実現し、そのパフォーマンスを以前のアルゴリズムと比較します。
特に、アブレーション研究を通じて提案された州再建の重要性を示しています。
さらに、標準の連続制御ベンチマーク(D4RL)でのモデルのパフォーマンスを評価します。つまり、8ドフANTのナビゲーションとハーフチーター、ホッパー、およびWalker2Dの前方移動を評価し、最先端の結果を達成します。
最後に、目標をカプセル化する領域を含むオフラインRLデータセットから状態空間のさまざまな領域が削除される、まばらな連続制御ナビゲーションタスクで、競合するベースラインでこの方法が167%の改善を達成できることを実証します。
要約(オリジナル)
Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for data collection. However, they face challenges handling distribution shifts due to the lack of online interaction during training. To this end, we propose a novel method named State Reconstruction for Diffusion Policies (SRDP) that incorporates state reconstruction feature learning in the recent class of diffusion policies to address the problem of out-of-distribution (OOD) generalization. Our method promotes learning of generalizable state representation to alleviate the distribution shift caused by OOD states. To illustrate the OOD generalization and faster convergence of SRDP, we design a novel 2D Multimodal Contextual Bandit environment and realize it on a 6-DoF real-world UR10 robot, as well as in simulation, and compare its performance with prior algorithms. In particular, we show the importance of the proposed state reconstruction via ablation studies. In addition, we assess the performance of our model on standard continuous control benchmarks (D4RL), namely the navigation of an 8-DoF ant and forward locomotion of half-cheetah, hopper, and walker2d, achieving state-of-the-art results. Finally, we demonstrate that our method can achieve 167% improvement over the competing baseline on a sparse continuous control navigation task where various regions of the state space are removed from the offline RL dataset, including the region encapsulating the goal.
arxiv情報
著者 | Suzan Ece Ada,Erhan Oztop,Emre Ugur |
発行日 | 2025-06-06 11:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google