DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation

要約

我々は、拡散モデルに基づく適応再評価による暗黙的 Q 学習 (DIAR) フレームワークを導入した、新しいオフライン強化学習 (オフライン RL) アプローチを提案します。
私たちは、オフライン RL における 2 つの重要な課題、つまり配布外のサンプルと長期的な問題に対処します。
私たちは拡散モデルを活用して状態と行動のシーケンス分布を学習し、よりバランスのとれた適応的な意思決定のために価値関数を組み込みます。
DIAR は、現在と将来の状態値を比較することで意思決定の長さを動的に調整する適応的再評価メカニズムを導入し、柔軟な長期的な意思決定を可能にします。
さらに、Q ネットワーク学習と拡散モデルによって導かれた価値関数を組み合わせることにより、Q 値の過大評価に対処します。
普及モデルは多様な潜在的な軌道を生成し、政策の堅牢性と一般化を強化します。
Maze2D、AntMaze、Kitchen などのタスクで実証されているように、DIAR は、長期にわたる報酬の少ない環境において、常に最先端のアルゴリズムを上回ります。

要約(オリジナル)

We propose a novel offline reinforcement learning (offline RL) approach, introducing the Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation (DIAR) framework. We address two key challenges in offline RL: out-of-distribution samples and long-horizon problems. We leverage diffusion models to learn state-action sequence distributions and incorporate value functions for more balanced and adaptive decision-making. DIAR introduces an Adaptive Revaluation mechanism that dynamically adjusts decision lengths by comparing current and future state values, enabling flexible long-term decision-making. Furthermore, we address Q-value overestimation by combining Q-network learning with a value function guided by a diffusion model. The diffusion model generates diverse latent trajectories, enhancing policy robustness and generalization. As demonstrated in tasks like Maze2D, AntMaze, and Kitchen, DIAR consistently outperforms state-of-the-art algorithms in long-horizon, sparse-reward environments.

arxiv情報

著者 Jaehyun Park,Yunho Kim,Sejin Kim,Byung-Jun Lee,Sundong Kim
発行日 2024-10-15 07:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク