Robust Policy Learning via Offline Skill Diffusion

要約

スキルベースの強化学習 (RL) アプローチは、特に階層構造を介して長期的なタスクを解決する場合に、かなりの有望性を示しています。
これらのスキルは、オフライン データセットからタスクに依存せずに学習されるため、新しいタスクのポリシー学習プロセスを加速できます。
しかし、これらのスキルのさまざまなドメインでの適用は、データセットへの固有の依存関係により制限されたままであり、データセットのドメインとは異なるターゲット ドメインの RL を介してスキルベースのポリシーを学習しようとする場合に課題が生じます。
この論文では、ガイド付き拡散モデルを採用し、データセット内の限られたスキルから拡張された汎用性の高いスキルを生成する新しいオフライン スキル学習フレームワーク DuSkill を紹介します。これにより、さまざまなドメインのタスクに対するポリシー学習の堅牢性が向上します。
具体的には、階層エンコーディングと組み合わせたガイド付き拡散ベースのスキル デコーダを考案し、スキル埋め込み空間を 2 つの異なる表現に分解します。1 つはドメイン不変の動作をカプセル化するためのもので、もう 1 つは動作のドメイン変動を引き起こす要因を描写するためのものです。
当社の DuSkill フレームワークは、オフラインで学習されるスキルの多様性を強化し、さまざまなドメインの高レベルのポリシーの学習手順を加速できるようにします。
実験を通じて、DuSkill がいくつかの長期タスクにおいて他のスキルベースの模倣学習および RL アルゴリズムよりも優れたパフォーマンスを発揮することを示し、数ショットの模倣およびオンライン RL における利点を実証しました。

要約(オリジナル)

Skill-based reinforcement learning (RL) approaches have shown considerable promise, especially in solving long-horizon tasks via hierarchical structures. These skills, learned task-agnostically from offline datasets, can accelerate the policy learning process for new tasks. Yet, the application of these skills in different domains remains restricted due to their inherent dependency on the datasets, which poses a challenge when attempting to learn a skill-based policy via RL for a target domain different from the datasets’ domains. In this paper, we present a novel offline skill learning framework DuSkill which employs a guided Diffusion model to generate versatile skills extended from the limited skills in datasets, thereby enhancing the robustness of policy learning for tasks in different domains. Specifically, we devise a guided diffusion-based skill decoder in conjunction with the hierarchical encoding to disentangle the skill embedding space into two distinct representations, one for encapsulating domain-invariant behaviors and the other for delineating the factors that induce domain variations in the behaviors. Our DuSkill framework enhances the diversity of skills learned offline, thus enabling to accelerate the learning procedure of high-level policies for different domains. Through experiments, we show that DuSkill outperforms other skill-based imitation learning and RL algorithms for several long-horizon tasks, demonstrating its benefits in few-shot imitation and online RL.

arxiv情報

著者 Woo Kyung Kim,Minjong Yoo,Honguk Woo
発行日 2024-08-22 04:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク