Generalized Contrastive Divergence: Joint Training of Energy-Based Model and Diffusion Model through Inverse Reinforcement Learning

要約

エネルギーベース モデル (EBM) とサンプラーを同時にトレーニングするための新しい目的関数である一般化対比発散 (GCD) を紹介します。
GCD は、マルコフ連鎖モンテカルロ (MCMC) 分布を拡散モデルなどのトレーニング可能なサンプラーに置き換えることにより、EBM トレーニング用の有名なアルゴリズムである Contrastive Divergence (Hinton、2002) を一般化します。
GCD では、EBM と拡散モデルの共同トレーニングはミニマックス問題として定式化され、両方のモデルがデータ分布に収束すると平衡に達します。
GCD によるミニマックス学習は、逆強化学習と興味深い同等性を持っています。エネルギーは負の報酬に対応し、拡散モデルはポリシーであり、実際のデータは専門家のデモンストレーションです。
我々は、共同トレーニングが EBM と拡散モデルの両方にとって有益であることを示す、予備的ではあるが有望な結果を提示します。
GCD は、拡散モデルのサンプル品質を向上させながら、MCMC なしで EBM トレーニングを可能にします。

要約(オリジナル)

We present Generalized Contrastive Divergence (GCD), a novel objective function for training an energy-based model (EBM) and a sampler simultaneously. GCD generalizes Contrastive Divergence (Hinton, 2002), a celebrated algorithm for training EBM, by replacing Markov Chain Monte Carlo (MCMC) distribution with a trainable sampler, such as a diffusion model. In GCD, the joint training of EBM and a diffusion model is formulated as a minimax problem, which reaches an equilibrium when both models converge to the data distribution. The minimax learning with GCD bears interesting equivalence to inverse reinforcement learning, where the energy corresponds to a negative reward, the diffusion model is a policy, and the real data is expert demonstrations. We present preliminary yet promising results showing that joint training is beneficial for both EBM and a diffusion model. GCD enables EBM training without MCMC while improving the sample quality of a diffusion model.

arxiv情報

著者 Sangwoong Yoon,Dohyun Kwon,Himchan Hwang,Yung-Kyun Noh,Frank C. Park
発行日 2023-12-06 10:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク