Policy-Guided Diffusion

要約

現実世界の多くの設定では、エージェントは事前の動作ポリシーによって収集されたオフライン データセットから学習する必要があります。
このような設定では、当然のことながら、行動ポリシーとトレーニング対象のターゲット ポリシーの間で分布の変化が生じ、不安定性や過大評価バイアスを回避するためにポリシーの保守性が必要になります。
自己回帰世界モデルは、ポリシーに基づいた合成エクスペリエンスを生成することで、これに対する別の解決策を提供します。
ただし、実際には、複合エラーを避けるために、モデルのロールアウトを大幅に切り詰める必要があります。
代替案として、政策に基づく普及を提案します。
私たちの方法では、拡散モデルを使用して行動分布の下で全体の軌跡を生成し、ターゲットポリシーからのガイダンスを適用して、合成エクスペリエンスをさらにポリシー上に移動します。
政策誘導拡散モデルは、ターゲットと行動の両方のポリシーの下で行動の尤度のバランスをとる、正則化された形式のターゲット分布をモデル化し、オフラインの世界モデルのベースラインよりも低いダイナミクスエラーを維持しながら、ターゲットポリシーの確率が高いもっともらしい軌道を導くことを示します。
実際のデータのドロップイン代替として、ポリシーに基づく拡散による合成エクスペリエンスを使用して、さまざまな標準的なオフライン強化学習アルゴリズムおよび環境全体でパフォーマンスが大幅に向上することを実証します。
私たちのアプローチは、自己回帰オフライン世界モデルの効果的な代替手段を提供し、合成トレーニング データの制御可能な生成への扉を開きます。

要約(オリジナル)

In many real-world settings, agents must learn from an offline dataset gathered by some prior behavior policy. Such a setting naturally leads to distribution shift between the behavior policy and the target policy being trained – requiring policy conservatism to avoid instability and overestimation bias. Autoregressive world models offer a different solution to this by generating synthetic, on-policy experience. However, in practice, model rollouts must be severely truncated to avoid compounding error. As an alternative, we propose policy-guided diffusion. Our method uses diffusion models to generate entire trajectories under the behavior distribution, applying guidance from the target policy to move synthetic experience further on-policy. We show that policy-guided diffusion models a regularized form of the target distribution that balances action likelihood under both the target and behavior policies, leading to plausible trajectories with high target policy probability, while retaining a lower dynamics error than an offline world model baseline. Using synthetic experience from policy-guided diffusion as a drop-in substitute for real data, we demonstrate significant improvements in performance across a range of standard offline reinforcement learning algorithms and environments. Our approach provides an effective alternative to autoregressive offline world models, opening the door to the controllable generation of synthetic training data.

arxiv情報

著者 Matthew Thomas Jackson,Michael Tryfan Matthews,Cong Lu,Benjamin Ellis,Shimon Whiteson,Jakob Foerster
発行日 2024-04-09 14:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク