Diffusion Spectral Representation for Reinforcement Learning

要約

拡散に基づくモデルは、複雑な分布をモデル化する表現力により、強化学習(RL)において注目すべき経験的成功を収めている。既存の手法は有望であるにもかかわらず、既存の手法をより広い実世界への応用に拡張するための重要な課題は、推論時の計算コストにある。すなわち、拡散モデルからのサンプリングは、1つのサンプルを生成するのに数十から数百回の反復を必要とすることが多く、かなり時間がかかる。この問題を回避するために、我々は表現学習の観点から拡散モデルの柔軟性をRLに活用することを提案する。特に、拡散モデルとエネルギーベースモデルとの関連を利用することで、マルコフ決定過程(MDP)および部分可観測マルコフ決定過程(POMDP)における価値関数に対する十分な表現を抽出することを可能にする首尾一貫したアルゴリズムフレームワークである拡散スペクトル表現(Diff-SR)を開発する。さらに、拡散モデルからのサンプリングの困難さと推論コストを明示的に回避しながら、Diff-SRがいかに効率的な政策最適化と実用的なアルゴリズムを促進するかを実証する。最後に、Diff-SRが完全および部分的に観測可能な設定の様々なベンチマークにおいてロバストで有利なパフォーマンスを提供する利点を検証するための包括的な実証研究を提供します。

要約(オリジナル)

Diffusion-based models have achieved notable empirical successes in reinforcement learning (RL) due to their expressiveness in modeling complex distributions. Despite existing methods being promising, the key challenge of extending existing methods for broader real-world applications lies in the computational cost at inference time, i.e., sampling from a diffusion model is considerably slow as it often requires tens to hundreds of iterations to generate even one sample. To circumvent this issue, we propose to leverage the flexibility of diffusion models for RL from a representation learning perspective. In particular, by exploiting the connection between diffusion models and energy-based models, we develop Diffusion Spectral Representation (Diff-SR), a coherent algorithm framework that enables extracting sufficient representations for value functions in Markov decision processes (MDP) and partially observable Markov decision processes (POMDP). We further demonstrate how Diff-SR facilitates efficient policy optimization and practical algorithms while explicitly bypassing the difficulty and inference cost of sampling from the diffusion model. Finally, we provide comprehensive empirical studies to verify the benefits of Diff-SR in delivering robust and advantageous performance across various benchmarks with both fully and partially observable settings.

arxiv情報

著者 Dmitry Shribak,Chen-Xiao Gao,Yitong Li,Chenjun Xiao,Bo Dai
発行日 2024-11-01 16:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク