Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning

要約

この論文では、オフライン強化学習 (RL) のトレーニング普及ポリシーの高度な手法を紹介します。
中心となるのは、平均反転確率微分方程式 (SDE) であり、これは複雑なアクション分布を標準ガウス分布に変換し、一般的な拡散政策と同様に、対応する逆時間 SDE を使用して環境状態に条件付けされたアクションをサンプリングします。
このような SDE には、ポリシーの対数確率の計算に使用できるソリューションがあり、オフライン データセットの探索を改善するエントロピー正則化装置が得られることを示します。
分布外のデータポイントからの不正確な値関数の影響を軽減するために、より堅牢なポリシー改善のために Q アンサンブルの下限信頼限界を学習することをさらに提案します。
エントロピー正則化拡散ポリシーとオフライン RL の Q アンサンブルを組み合わせることで、私たちの手法は D4RL ベンチマークのほとんどのタスクで最先端のパフォーマンスを達成します。
コードは \href{https://github.com/ruoqizzz/Entropy- Regularized-Diffusion-Policy-with-QEnsemble}{https://github.com/ruoqizzz/Entropy- Regularized-Diffusion-Policy-with- で入手できます。
Qアンサンブル}。

要約(オリジナル)

This paper presents advanced techniques of training diffusion policies for offline reinforcement learning (RL). At the core is a mean-reverting stochastic differential equation (SDE) that transfers a complex action distribution into a standard Gaussian and then samples actions conditioned on the environment state with a corresponding reverse-time SDE, like a typical diffusion policy. We show that such an SDE has a solution that we can use to calculate the log probability of the policy, yielding an entropy regularizer that improves the exploration of offline datasets. To mitigate the impact of inaccurate value functions from out-of-distribution data points, we further propose to learn the lower confidence bound of Q-ensembles for more robust policy improvement. By combining the entropy-regularized diffusion policy with Q-ensembles in offline RL, our method achieves state-of-the-art performance on most tasks in D4RL benchmarks. Code is available at \href{https://github.com/ruoqizzz/Entropy-Regularized-Diffusion-Policy-with-QEnsemble}{https://github.com/ruoqizzz/Entropy-Regularized-Diffusion-Policy-with-QEnsemble}.

arxiv情報

著者 Ruoqi Zhang,Ziwei Luo,Jens Sjölund,Thomas B. Schön,Per Mattsson
発行日 2024-02-06 15:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク