Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

要約

分布補正推定 (DICE) 法の重要な特性の 1 つは、解が最適化ポリシーとデータ収集ポリシーの間の最適な定常分布比であることです。
この研究では、DICE ベースの手法が動作分布から最適なポリシー分布への変換と見なすことができることを示します。
これに基づいて、拡散モデルを使用してこの変換を直接実行する新しいアプローチである Diffusion-DICE を提案します。
最適なポリシーのスコア関数は、行動ポリシーのスコア関数と、最適な配分比率に依存するガイダンス項の勾配の 2 つの項に分解できることがわかりました。
最初の項はデータセットでトレーニングされた拡散モデルから取得でき、2 番目の項を学習するためのサンプル内学習目標を提案します。
最適なポリシー分布にはマルチモダリティが含まれているため、Diffusion-DICE での変換はそれらの局所最適モードに誘導される可能性があります。
したがって、いくつかの候補アクションを生成し、全体最適に近づくためにそれらから慎重に選択します。
他のすべての拡散ベースのオフライン RL 手法とは異なり、Diffusion-DICE の guide-then-select パラダイムはトレーニングにサンプル内アクションのみを使用し、値関数でのエラー利用を最小限に抑えます。
教訓的なおもちゃの例を使用して、以前の拡散ベースの手法がこれらのエラーを利用するためにどのように最適なアクションを生成できなかったか、そして Diffusion-DICE がどのようにしてそれをうまく回避したかを示します。
次に、Diffusion-DICE の強力なパフォーマンスを示すために、ベンチマーク データセットに対して広範な実験を実施します。

要約(オリジナル)

One important property of DIstribution Correction Estimation (DICE) methods is that the solution is the optimal stationary distribution ratio between the optimized and data collection policy. In this work, we show that DICE-based methods can be viewed as a transformation from the behavior distribution to the optimal policy distribution. Based on this, we propose a novel approach, Diffusion-DICE, that directly performs this transformation using diffusion models. We find that the optimal policy’s score function can be decomposed into two terms: the behavior policy’s score function and the gradient of a guidance term which depends on the optimal distribution ratio. The first term can be obtained from a diffusion model trained on the dataset and we propose an in-sample learning objective to learn the second term. Due to the multi-modality contained in the optimal policy distribution, the transformation in Diffusion-DICE may guide towards those local-optimal modes. We thus generate a few candidate actions and carefully select from them to approach global-optimum. Different from all other diffusion-based offline RL methods, the guide-then-select paradigm in Diffusion-DICE only uses in-sample actions for training and brings minimal error exploitation in the value function. We use a didatic toycase example to show how previous diffusion-based methods fail to generate optimal actions due to leveraging these errors and how Diffusion-DICE successfully avoids that. We then conduct extensive experiments on benchmark datasets to show the strong performance of Diffusion-DICE.

arxiv情報

著者 Liyuan Mao,Haoran Xu,Weinan Zhang,Xianyuan Zhan,Amy Zhang
発行日 2024-07-29 15:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク