World Models via Policy-Guided Trajectory Diffusion

要約

ワールド モデルは、インテリジェント エージェントを開発するための強力なツールです。
ワールド モデルは、一連のアクションの結果を予測することで、合成データを使用したオンポリシー強化学習 (RL) を介して、つまり「想像の中で」ポリシーを最適化することができます。
既存の世界モデルは、次の状態の予測とポリシーからの次のアクションのサンプリングを交互に行うという点で自己回帰的です。
軌道の長さが長くなるにつれて、予測誤差は必然的に増大します。
この研究では、自己回帰的ではなく、拡散モデルを介した単一パスでポリシーに基づく軌道全体を生成する、新しい世界モデリング アプローチを提案します。
私たちのアプローチであるポリシー誘導軌道拡散 (PolyGRAD) は、ポリシーのアクション分布の勾配に加えてノイズ除去モデルを利用して、最初はランダムな状態とアクションの軌道をポリシー上の合成軌道に拡散します。
PolyGRAD、スコアベースの生成モデル、および分類子に基づく拡散モデルの間の接続を分析します。
私たちの結果は、自己回帰拡散を除いて、中程度の長さの軌道の軌道予測誤差に関して、PolyGRAD が最先端のベースラインよりも優れていることを示しています。
短期間では、PolyGRAD は自己回帰拡散と同等の誤差を取得しますが、計算要件は大幅に低くなります。
私たちの実験では、PolyGRAD により、MuJoCo 連続制御ドメインの想像力でオンポリシー RL を介してパフォーマンスの高いポリシーをトレーニングできることも実証されました。
したがって、PolyGRAD は、スケーラブルで非自己回帰的なポリシー上の世界モデリングのための新しいパラダイムを導入します。

要約(オリジナル)

World models are a powerful tool for developing intelligent agents. By predicting the outcome of a sequence of actions, world models enable policies to be optimised via on-policy reinforcement learning (RL) using synthetic data, i.e. in ‘in imagination’. Existing world models are autoregressive in that they interleave predicting the next state with sampling the next action from the policy. Prediction error inevitably compounds as the trajectory length grows. In this work, we propose a novel world modelling approach that is not autoregressive and generates entire on-policy trajectories in a single pass through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient of the action distribution of the policy to diffuse a trajectory of initially random states and actions into an on-policy synthetic trajectory. We analyse the connections between PolyGRAD, score-based generative models, and classifier-guided diffusion models. Our results demonstrate that PolyGRAD outperforms state-of-the-art baselines in terms of trajectory prediction error for moderate-length trajectories, with the exception of autoregressive diffusion. At short horizons, PolyGRAD obtains comparable errors to autoregressive diffusion, but with significantly lower computational requirements. Our experiments also demonstrate that PolyGRAD enables performant policies to be trained via on-policy RL in imagination for MuJoCo continuous control domains. Thus, PolyGRAD introduces a new paradigm for scalable and non-autoregressive on-policy world modelling.

arxiv情報

著者 Marc Rigter,Jun Yamada,Ingmar Posner
発行日 2023-12-17 16:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク