GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models

要約

オフライン目標条件付き RL (GCRL) は、多様なマルチタスクのオフライン データセットから汎用ポリシーを学習するための実行可能なパラダイムを提供します。
最近の顕著な進歩にもかかわらず、主にモデルフリーの主流のオフライン GCRL 手法は、限られたデータの処理と目に見えない目標への一般化において制約に直面しています。
この研究では、次の 2 つの重要なフェーズを含む新しいモデルベースのフレームワークである、目標条件付きオフライン プランニング (GOPlan) を提案します。(1) 複数の目標データセット内のマルチモーダル アクション分布をキャプチャできる事前ポリシーを事前トレーニングする。
(2) 再解析手法を活用して、政策の想像上の軌道を生成する計画。
具体的には、以前のポリシーは、有利な重み付け条件付き敵対的生成ネットワークに基づいており、これにより明確なモード分離が容易になり、配布外 (OOD) アクションの落とし穴が軽減されます。
さらなるポリシーの最適化のために、再分析手法は、軌道内および軌道間の両方の目標について学習済みモデルを使用して計画を立てることにより、高品質の仮想データを生成します。
徹底的な実験評価により、GOPlan がさまざまなオフラインの複数目標のナビゲーションおよび操作タスクで最先端のパフォーマンスを達成することを実証しました。
さらに、私たちの結果は、GOPlan が小規模なデータ予算を処理し、OOD 目標に一般化する優れた能力を備えていることを強調しています。

要約(オリジナル)

Offline Goal-Conditioned RL (GCRL) offers a feasible paradigm for learning general-purpose policies from diverse and multi-task offline datasets. Despite notable recent progress, the predominant offline GCRL methods, mainly model-free, face constraints in handling limited data and generalizing to unseen goals. In this work, we propose Goal-conditioned Offline Planning (GOPlan), a novel model-based framework that contains two key phases: (1) pretraining a prior policy capable of capturing multi-modal action distribution within the multi-goal dataset; (2) employing the reanalysis method with planning to generate imagined trajectories for funetuning policies. Specifically, we base the prior policy on an advantage-weighted conditioned generative adversarial network, which facilitates distinct mode separation, mitigating the pitfalls of out-of-distribution (OOD) actions. For further policy optimization, the reanalysis method generates high-quality imaginary data by planning with learned models for both intra-trajectory and inter-trajectory goals. With thorough experimental evaluations, we demonstrate that GOPlan achieves state-of-the-art performance on various offline multi-goal navigation and manipulation tasks. Moreover, our results highlight the superior ability of GOPlan to handle small data budgets and generalize to OOD goals.

arxiv情報

著者 Mianchu Wang,Rui Yang,Xi Chen,Hao Sun,Meng Fang,Giovanni Montana
発行日 2024-05-16 14:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク