要約
長期計画のための強化学習に拡散モデルを適用することが、最近大きな注目を集めています。
いくつかの拡散ベースの手法では、任意の分布に対する拡散のモデリング機能を活用することに成功しています。
これらの方法は、計画のための後続の軌道を生成し、大幅な改善を実証しています。
ただし、これらの方法は、単純な基底分布と、州が異なればリターンが異なるサンプルの多様性を無視することによって制限されます。
彼らは単に拡散を活用してオフライン データセットの分布を学習し、オフライン データセットと同じ分布を共有する状態を持つ軌道を生成します。
結果として、これらのモデルが高収益状態に到達する確率は、データセットの分布に大きく依存します。
誘導モデルを搭載しても性能は抑えられています。
これらの制限に対処するために、この論文では CDiffuser と呼ばれる新しい方法を提案します。この方法は、生成された軌道内の状態を高リターン状態に引き寄せる一方、低リターン状態から遠ざけて基本分布を改善するリターン コントラスト メカニズムを考案します。
一般的に使用される 14 の D4RL ベンチマークでの実験により、提案された方法の有効性が実証されました。
要約(オリジナル)
Applying diffusion models in reinforcement learning for long-term planning has gained much attention recently. Several diffusion-based methods have successfully leveraged the modeling capabilities of diffusion for arbitrary distributions. These methods generate subsequent trajectories for planning and have demonstrated significant improvement. However, these methods are limited by their plain base distributions and their overlooking of the diversity of samples, in which different states have different returns. They simply leverage diffusion to learn the distribution of offline dataset, generate the trajectories whose states share the same distribution with the offline dataset. As a result, the probability of these models reaching the high-return states is largely dependent on the dataset distribution. Even equipped with the guidance model, the performance is still suppressed. To address these limitations, in this paper, we propose a novel method called CDiffuser, which devises a return contrast mechanism to pull the states in generated trajectories towards high-return states while pushing them away from low-return states to improve the base distribution. Experiments on 14 commonly used D4RL benchmarks demonstrate the effectiveness of our proposed method.
arxiv情報
著者 | Yixiang Shan,Zhengbang Zhu,Ting Long,Qifan Liang,Yi Chang,Weinan Zhang,Liang Yin |
発行日 | 2024-02-06 17:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google