Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space

要約

エネルギーベース モデル (EBM) やスコアベースの生成モデル (SGM) を含むディープ生成モデル (DGM) は、高度な忠実度の高いデータ生成と複雑な連続分布近似を備えています。
しかし、マルコフ決定プロセス (MDP)、特に分布強化学習 (RL) におけるそれらの応用は依然として研究されておらず、従来のヒストグラムベースの手法がこの分野を支配しています。
この論文は、このアプリケーション ギャップが最新の DGM の非線形性によって引き起こされ、MDP のベルマン方程式で要求される線形性と矛盾することを厳しく強調しています。
たとえば、EBM には、エネルギー関数のべき乗や定数の正規化などの非線形操作が含まれます。
これに対処するために、勾配およびスカラー場モデリングを通じて MDP の線形性を維持する新しい DGM フレームワークである Bellman Diffusion を紹介します。
ニューラル ネットワーク プロキシを最適化する発散ベースのトレーニング手法と、サンプリング用の新しいタイプの確率微分方程式 (SDE) により、ベルマン拡散はターゲット分布への収束が保証されます。
私たちの経験的結果は、ベルマン拡散が正確なフィールド推定を達成し、分散 RL タスクにおいて従来のヒストグラムベースのベースラインよりも 1.5​​ 倍速く収束する有能な画像生成機能であることを示しています。
この取り組みにより、DGM を MDP アプリケーションに効果的に統合できるようになり、高度な意思決定フレームワークに新たな道が開かれます。

要約(オリジナル)

Deep Generative Models (DGMs), including Energy-Based Models (EBMs) and Score-based Generative Models (SGMs), have advanced high-fidelity data generation and complex continuous distribution approximation. However, their application in Markov Decision Processes (MDPs), particularly in distributional Reinforcement Learning (RL), remains underexplored, with conventional histogram-based methods dominating the field. This paper rigorously highlights that this application gap is caused by the nonlinearity of modern DGMs, which conflicts with the linearity required by the Bellman equation in MDPs. For instance, EBMs involve nonlinear operations such as exponentiating energy functions and normalizing constants. To address this, we introduce Bellman Diffusion, a novel DGM framework that maintains linearity in MDPs through gradient and scalar field modeling. With divergence-based training techniques to optimize neural network proxies and a new type of stochastic differential equation (SDE) for sampling, Bellman Diffusion is guaranteed to converge to the target distribution. Our empirical results show that Bellman Diffusion achieves accurate field estimations and is a capable image generator, converging 1.5x faster than the traditional histogram-based baseline in distributional RL tasks. This work enables the effective integration of DGMs into MDP applications, unlocking new avenues for advanced decision-making frameworks.

arxiv情報

著者 Yangming Li,Chieh-Hsin Lai,Carola-Bibiane Schönlieb,Yuki Mitsufuji,Stefano Ermon
発行日 2024-10-02 17:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク