Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning

要約

タイトル:オフライン強化学習における正確なエネルギー誘導拡散サンプリングのための対照的エネルギー予測

要約:
– ガイド付きサンプリングは、実世界のタスクに拡散モデルを適用するための重要なアプローチであり、人間によるガイダンスをサンプリング手順の中に埋め込むものである。
– 本論文では、そのガイダンスが非正規化されたエネルギー関数によって定義されている一般的な環境を考慮する。
– この環境における主な課題は、サンプリング分布とエネルギー関数によって共同で定義される拡散サンプリング手順の中間的なガイダンスが未知で、推定が困難であることである。
– この課題に対処するため、中間ガイダンスの正確な定式化と、正確なガイダンスを学習するための対照的なエネルギー予測(CEP)という新しいトレーニング目的を提案する。
– 我々の方法は、無制限のモデル能力とデータサンプルの下で正確なガイダンスに収束することが保証されており、これまでの方法ではそれができなかった。
– 我々の方法の有効性を証明するために、オフライン強化学習(RL)に適用して、D4RLベンチマークで広範な実験を行い、既存の最先端アルゴリズムを上回ることを実証する。
– 画像合成にCEPを適用する例を提供し、CEPの高次元データ上でのスケーラビリティを示す。

要約(オリジナル)

Guided sampling is a vital approach for applying diffusion models in real-world tasks that embeds human-defined guidance during the sampling procedure. This paper considers a general setting where the guidance is defined by an (unnormalized) energy function. The main challenge for this setting is that the intermediate guidance during the diffusion sampling procedure, which is jointly defined by the sampling distribution and the energy function, is unknown and is hard to estimate. To address this challenge, we propose an exact formulation of the intermediate guidance as well as a novel training objective named contrastive energy prediction (CEP) to learn the exact guidance. Our method is guaranteed to converge to the exact guidance under unlimited model capacity and data samples, while previous methods can not. We demonstrate the effectiveness of our method by applying it to offline reinforcement learning (RL). Extensive experiments on D4RL benchmarks demonstrate that our method outperforms existing state-of-the-art algorithms. We also provide some examples of applying CEP for image synthesis to demonstrate the scalability of CEP on high-dimensional data.

arxiv情報

著者 Cheng Lu,Huayu Chen,Jianfei Chen,Hang Su,Chongxuan Li,Jun Zhu
発行日 2023-04-25 13:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク