Towards Controllable Diffusion Models via Reward-Guided Exploration

要約

タイトル:報酬ガイド付き探索による制御可能な拡散モデルへのアプローチ

要約:

– 拡散モデルは、データサンプルの形成をマルコフ雑音除去プロセスとして定式化することにより、一連のタスクで最先端のパフォーマンスを達成しています。
– 制御可能なサンプル生成を可能にするために、多数の拡散モデルのバリアントが提案されてきました。
– これらの既存の方法の多くは、制御情報をノイズ近似器の入力(つまり、条件付き表現)として定式化するか、テストフェーズで事前にトレーニングされた分類器を導入してランジュバン動的を条件付き目標に向ける方法です。
– しかし、前者の方法は、制御情報を条件付ける表現として定式化できる場合にしか機能せず、後者は事前にトレーニングされた誘導分類器が微分可能であることを必要とします。
– 本論文では、拡散モデルのトレーニングフェーズを強化学習(RL)による報酬ガイド付きの新しいフレームワークRGDM(Reward-Guided Diffusion Model)でガイドすることを提案しています。
– 提案されたトレーニングフレームワークは、加重対数尤度と最大エントロピーRLの目的を結びつけ、ポリシー自体からではなく、指数スケールされた報酬に比例するペイオフ分布からサンプルを使用してポリシーグラデーションを計算することを可能にします。このようなフレームワークにより、高い勾配バリアンスを緩和し、拡散モデルが逆過程で高い報酬を持つサンプルを探索することができます。
– 3D形状と分子生成タスクの実験では、既存の条件付き拡散モデルよりも大幅な改善が示されました。

要約(オリジナル)

By formulating data samples’ formation as a Markov denoising process, diffusion models achieve state-of-the-art performances in a collection of tasks. Recently, many variants of diffusion models have been proposed to enable controlled sample generation. Most of these existing methods either formulate the controlling information as an input (i.e.,: conditional representation) for the noise approximator, or introduce a pre-trained classifier in the test-phase to guide the Langevin dynamic towards the conditional goal. However, the former line of methods only work when the controlling information can be formulated as conditional representations, while the latter requires the pre-trained guidance classifier to be differentiable. In this paper, we propose a novel framework named RGDM (Reward-Guided Diffusion Model) that guides the training-phase of diffusion models via reinforcement learning (RL). The proposed training framework bridges the objective of weighted log-likelihood and maximum entropy RL, which enables calculating policy gradients via samples from a pay-off distribution proportional to exponential scaled rewards, rather than from policies themselves. Such a framework alleviates the high gradient variances and enables diffusion models to explore for highly rewarded samples in the reverse process. Experiments on 3D shape and molecule generation tasks show significant improvements over existing conditional diffusion models.

arxiv情報

著者 Hengtong Zhang,Tingyang Xu
発行日 2023-04-14 13:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.BM パーマリンク