MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning

要約

私たちは、オフラインの強化学習問題を研究します。ここでは、ソースおよびターゲットドメインから収集されたオフラインデータセットから、不一致の移行を伴うポリシーを学習することです。
既存のオフダイナミックオフラインRLメソッドは、通常、ターゲットドメインのものに似たフィルターソース遷移のいずれかを、ターゲットドメインから利用可能な限られた遷移によって制約されるソースデータに報酬の増強を適用します。
その結果、学習したポリシーでは、オフラインデータセットを超えてターゲットドメインを探索できません。
学習したダイナミクスを介してターゲットドメインの探索を可能にすることにより、この制限に対処するモデルベースのオフラインRLアルゴリズムであるMoBodyを提案します。
Mobodyは、モデルロールアウトを介してターゲットドメインで新しい合成遷移を生成します。これは、オフラインポリシー学習中にデータ増強として使用されます。
単一のドメインからダイナミクスを学習する既存のモデルベースの方法とは異なり、MoBodyは、ソースデータセットとターゲットデータセットの両方を活用することにより、不一致のダイナミクスの課題に取り組みます。
これらのデータセットを直接マージすると、学習モデルをソースダイナミクスにバイアスすることができます。
代わりに、Mobodyは、表現学習を通じて、ドメイン全体の状態と遷移の共有された潜在的な表現を発見することにより、ターゲットダイナミクスを学習します。
トレーニングを安定させるために、Mobodyは、ポリシーを正規化する動作クローニング損失を組み込みます。
具体的には、データセット内のすべてのアクションを均一に模倣するのではなく、ターゲットドメインQ値が高いアクションに向けたポリシーを正規化するQ強調の動作クローニング損失を導入します。
これらのQ値は、オフラインのターゲットデータ、拡張ソースデータ、および学習されたターゲットダイナミクスからの展開データで構成される拡張されたターゲットデータセットから学習されます。
Mujoco BenchmarksでMobodyを評価し、特に挑戦的なシナリオの改善が顕著になっていることを示しています。

要約(オリジナル)

We study the off-dynamics offline reinforcement learning problem, where the goal is to learn a policy from offline datasets collected from source and target domains with mismatched transition. Existing off-dynamics offline RL methods typically either filter source transitions that resemble those of the target domain or apply reward augmentation to source data, both constrained by the limited transitions available from the target domain. As a result, the learned policy is unable to explore target domain beyond the offline datasets. We propose MOBODY, a Model-Based Off-Dynamics offline RL algorithm that addresses this limitation by enabling exploration of the target domain via learned dynamics. MOBODY generates new synthetic transitions in the target domain through model rollouts, which are used as data augmentation during offline policy learning. Unlike existing model-based methods that learn dynamics from a single domain, MOBODY tackles the challenge of mismatched dynamics by leveraging both source and target datasets. Directly merging these datasets can bias the learned model toward source dynamics. Instead, MOBODY learns target dynamics by discovering a shared latent representation of states and transitions across domains through representation learning. To stabilize training, MOBODY incorporates a behavior cloning loss that regularizes the policy. Specifically, we introduce a Q-weighted behavior cloning loss that regularizes the policy toward actions with high target-domain Q-values, rather than uniformly imitating all actions in the dataset. These Q-values are learned from an enhanced target dataset composed of offline target data, augmented source data, and rollout data from the learned target dynamics. We evaluate MOBODY on MuJoCo benchmarks and show that it significantly outperforms state-of-the-art baselines, with especially pronounced improvements in challenging scenarios.

arxiv情報

著者 Yihong Guo,Yu Yang,Pan Xu,Anqi Liu
発行日 2025-06-10 05:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク