Feedback Efficient Online Fine-Tuning of Diffusion Models

要約

拡散モデルは、画像、タンパク質、小分子などの複雑なデータ分布のモデル化に優れています。
ただし、多くの場合、私たちの目標は、特定の特性を最大化する分布の部分をモデル化することです。たとえば、高い美的品質を持つ画像や、高い生物活性を持つ分子を生成したい場合があります。
これを強化学習 (RL) 問題として組み立てるのは自然です。その目的は、ある特性に対応する報酬関数を最大化するために拡散モデルを微調整することです。
グラウンドトゥルースの報酬関数のオンライン クエリにアクセスできたとしても、高報酬のサンプルを効率的に発見するのは困難な場合があります。初期分布では確率が低い可能性があり、ウェルを持たない実行不可能なサンプルが多数存在する可能性があります。
定義された報酬(不自然な画像や物理的に不可能な分子など)。
この研究では、実現可能なサンプルの多様体を効率的に探索する新しい強化学習手順を提案します。
私たちは、画像、生物学的配列、分子という 3 つの領域にわたる経験的検証だけでなく、後悔の保証を提供する理論的分析を提示します。

要約(オリジナル)

Diffusion models excel at modeling complex data distributions, including those of images, proteins, and small molecules. However, in many cases, our goal is to model parts of the distribution that maximize certain properties: for example, we may want to generate images with high aesthetic quality, or molecules with high bioactivity. It is natural to frame this as a reinforcement learning (RL) problem, in which the objective is to fine-tune a diffusion model to maximize a reward function that corresponds to some property. Even with access to online queries of the ground-truth reward function, efficiently discovering high-reward samples can be challenging: they might have a low probability in the initial distribution, and there might be many infeasible samples that do not even have a well-defined reward (e.g., unnatural images or physically impossible molecules). In this work, we propose a novel reinforcement learning procedure that efficiently explores on the manifold of feasible samples. We present a theoretical analysis providing a regret guarantee, as well as empirical validation across three domains: images, biological sequences, and molecules.

arxiv情報

著者 Masatoshi Uehara,Yulai Zhao,Kevin Black,Ehsan Hajiramezanali,Gabriele Scalia,Nathaniel Lee Diamant,Alex M Tseng,Sergey Levine,Tommaso Biancalani
発行日 2024-02-27 18:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM, stat.ML パーマリンク