Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization

要約

拡散モデルは、その強力な表現力と多峰性により、強化学習 (RL) において広く注目を集めています。
拡散ポリシーを利用すると、ガウス ポリシーなどの単峰性ポリシーの制限を克服し、エージェントに強化された探索機能を提供することで、連続制御タスクにおける RL アルゴリズムのパフォーマンスを大幅に向上できることが検証されています。
ただし、既存の研究は主にオフライン RL での拡散ポリシーの適用に焦点を当てており、オンライン RL への拡散ポリシーの組み込みについてはあまり調査されていません。
変分下限として知られる拡散モデルのトレーニング目標は、「適切な」アクションが利用できないため、オンライン RL で直接最適化することはできません。
このため、普及政策の改善が困難になります。
これを克服するために、我々は、新しいモデルフリー拡散ベースのオンライン RL アルゴリズムである Q 重み付き変分ポリシー最適化 (QVPO) を提案します。
具体的には、Q 加重変分損失を導入します。これは、特定の条件下でオンライン RL における政策目標の厳しい下限であることが証明できます。
これらの条件を満たすために、一般的なシナリオに対して Q 重み変換関数が導入されています。
さらに、拡散ポリシーの探索能力をさらに強化するために、特別なエントロピー正則化項を設計します。
また、オンラインインタラクション中の拡散ポリシーの変動を低減することでサンプル効率を高めるための効率的な動作ポリシーも開発します。
その結果、QVPO アルゴリズムは拡散ポリシーの探索機能とマルチモダリティを活用し、RL エージェントが次善のポリシーに収束するのを防ぎます。
QVPO の有効性を検証するために、MuJoCo ベンチマークに関する包括的な実験を実施します。
最終結果は、QVPO が累積報酬とサンプル効率の両方で最先端のパフォーマンスを達成していることを示しています。

要約(オリジナル)

Diffusion models have garnered widespread attention in Reinforcement Learning (RL) for their powerful expressiveness and multimodality. It has been verified that utilizing diffusion policies can significantly improve the performance of RL algorithms in continuous control tasks by overcoming the limitations of unimodal policies, such as Gaussian policies, and providing the agent with enhanced exploration capabilities. However, existing works mainly focus on the application of diffusion policies in offline RL, while their incorporation into online RL is less investigated. The training objective of the diffusion model, known as the variational lower bound, cannot be optimized directly in online RL due to the unavailability of ‘good’ actions. This leads to difficulties in conducting diffusion policy improvement. To overcome this, we propose a novel model-free diffusion-based online RL algorithm, Q-weighted Variational Policy Optimization (QVPO). Specifically, we introduce the Q-weighted variational loss, which can be proved to be a tight lower bound of the policy objective in online RL under certain conditions. To fulfill these conditions, the Q-weight transformation functions are introduced for general scenarios. Additionally, to further enhance the exploration capability of the diffusion policy, we design a special entropy regularization term. We also develop an efficient behavior policy to enhance sample efficiency by reducing the variance of the diffusion policy during online interactions. Consequently, the QVPO algorithm leverages the exploration capabilities and multimodality of diffusion policies, preventing the RL agent from converging to a sub-optimal policy. To verify the effectiveness of QVPO, we conduct comprehensive experiments on MuJoCo benchmarks. The final results demonstrate that QVPO achieves state-of-the-art performance on both cumulative reward and sample efficiency.

arxiv情報

著者 Shutong Ding,Ke Hu,Zhenhao Zhang,Kan Ren,Weinan Zhang,Jingyi Yu,Jingya Wang,Ye Shi
発行日 2024-12-16 15:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク