Offline Reinforcement Learning with Discrete Diffusion Skills

要約

複雑で長期のタスクに取り組み、一貫した行動を促進し、意味のある探索を可能にするための時間的抽象化として、オフライン強化学習(RL)にスキルが紹介されています。
オフラインRLのスキルは主に連続潜在空間内でモデル化されていますが、離散スキルスペースの可能性はほとんど露出度の低いままです。
この論文では、最先端の変圧器ベースのエンコーダーと拡散ベースのデコーダーによってサポートされるオフラインRLタスクのコンパクトな離散スキルスペースを提案します。
オフラインRLテクニックを介して訓練された高レベルのポリシーと相まって、この方法は、訓練された拡散デコーダーが極めて重要な役割を果たす階層RLフレームワークを確立します。
経験的評価は、提案されたアルゴリズムである離散拡散スキル(DDS)が強力なオフラインRLメソッドであることを示しています。
DDSは、移動やキッチンタスクで競争力のあるパフォーマンスを発揮し、長老のタスクに優れており、既存のオフラインRLアプローチと比較して、Antmaze-V2ベンチマークの少なくとも12%の改善を達成します。
さらに、DDSは、以前のスキルベースの方法と比較して、解釈可能性、トレーニングの安定性、およびオンライン探査の改善を提供します。

要約(オリジナル)

Skills have been introduced to offline reinforcement learning (RL) as temporal abstractions to tackle complex, long-horizon tasks, promoting consistent behavior and enabling meaningful exploration. While skills in offline RL are predominantly modeled within a continuous latent space, the potential of discrete skill spaces remains largely underexplored. In this paper, we propose a compact discrete skill space for offline RL tasks supported by state-of-the-art transformer-based encoder and diffusion-based decoder. Coupled with a high-level policy trained via offline RL techniques, our method establishes a hierarchical RL framework where the trained diffusion decoder plays a pivotal role. Empirical evaluations show that the proposed algorithm, Discrete Diffusion Skill (DDS), is a powerful offline RL method. DDS performs competitively on Locomotion and Kitchen tasks and excels on long-horizon tasks, achieving at least a 12 percent improvement on AntMaze-v2 benchmarks compared to existing offline RL approaches. Furthermore, DDS offers improved interpretability, training stability, and online exploration compared to previous skill-based methods.

arxiv情報

著者 RuiXi Qiao,Jie Cheng,Xingyuan Dai,Yonglin Tian,Yisheng Lv
発行日 2025-03-26 03:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク