要約
オフライン強化学習 (RL) は、オフライン データセットから最適なポリシーを学習することを目的としています。この場合、ポリシーのパラメーター化は重要ですが、見落とされがちです。
最近、Diffsuion-QL は、拡散モデルでポリシーを表すことにより、オフライン RL のパフォーマンスを大幅に向上させました。拡散モデルの成功は、サンプリングに数百のステップを備えたパラメータ化されたマルコフ連鎖に依存しています。
ただし、Diffusion-QL には 2 つの重大な制限があります。
1) トレーニング中にマルコフ連鎖全体を前後に進めるのは計算効率が悪くなります。
2) 拡散モデルの尤度は扱いにくいため、最尤法に基づく RL アルゴリズム (ポリシー勾配法など) とは互換性がありません。
したがって、これら 2 つの課題を克服するための効率的な普及政策 (EDP) を提案します。
EDP は、サンプリング チェーンの実行を回避するために、トレーニング時に破損したアクションからほぼアクションを構築します。
私たちは D4RL ベンチマークに関して広範な実験を行っています。
結果は、EDP がジムでの移動タスクに関する普及政策のトレーニング時間を 5 日から 5 時間に短縮できることを示しています。
さらに、EDP がさまざまなオフライン RL アルゴリズム (TD3、CRR、および IQL) と互換性があり、以前の方法に比べて大幅に D4RL で新しい最先端の技術を達成できることを示します。
私たちのコードは https://github.com/sail-sg/edp で入手できます。
要約(オリジナル)
Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.
arxiv情報
著者 | Bingyi Kang,Xiao Ma,Chao Du,Tianyu Pang,Shuicheng Yan |
発行日 | 2023-05-31 17:55:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google