Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review

要約

このチュートリアルでは、下流の報酬関数を最適化するために拡散モデルを微調整する方法の包括的な調査を提供します。
拡散モデルは優れた生成モデリング機能を提供することが広く知られていますが、生物学などの分野での実際の応用では、望ましい指標 (RNA の翻訳効率、分子のドッキング スコア、タンパク質の安定性など) を最大化するサンプルを生成する必要があります。
このような場合、拡散モデルを最適化して現実的なサンプルを生成するだけでなく、対象の尺度を明示的に最大化することもできます。
このような方法は、強化学習 (RL) の概念に基づいています。
PPO、微分可能最適化、報酬重み付け MLE、値重み付けサンプリング、経路一貫性学習など、拡散モデルの微調整に特化したさまざまな RL アルゴリズムのアプリケーションについて説明します。
私たちは、さまざまなシナリオにわたるさまざまな RL ベースの微調整アルゴリズムの長所と限界、非 RL ベースのアプローチと比較した RL ベースの微調整の利点、RL の正式な目的などの基本的な側面を探ることを目的としています。
ベースの微調整 (ターゲット分布)。
さらに、分類器ガイダンス、Gflownet、フローベースの拡散モデル、パス積分制御理論、MCMC などの非正規化分布からのサンプリングなどの関連トピックとの関連性を調べることを目的としています。
このチュートリアルのコードは、https://github.com/masa-ue/RLfinetuning_Diffusion_Bioseq で入手できます。

要約(オリジナル)

This tutorial provides a comprehensive survey of methods for fine-tuning diffusion models to optimize downstream reward functions. While diffusion models are widely known to provide excellent generative modeling capability, practical applications in domains such as biology require generating samples that maximize some desired metric (e.g., translation efficiency in RNA, docking score in molecules, stability in protein). In these cases, the diffusion model can be optimized not only to generate realistic samples but also to explicitly maximize the measure of interest. Such methods are based on concepts from reinforcement learning (RL). We explain the application of various RL algorithms, including PPO, differentiable optimization, reward-weighted MLE, value-weighted sampling, and path consistency learning, tailored specifically for fine-tuning diffusion models. We aim to explore fundamental aspects such as the strengths and limitations of different RL-based fine-tuning algorithms across various scenarios, the benefits of RL-based fine-tuning compared to non-RL-based approaches, and the formal objectives of RL-based fine-tuning (target distributions). Additionally, we aim to examine their connections with related topics such as classifier guidance, Gflownets, flow-based diffusion models, path integral control theory, and sampling from unnormalized distributions such as MCMC. The code of this tutorial is available at https://github.com/masa-ue/RLfinetuning_Diffusion_Bioseq

arxiv情報

著者 Masatoshi Uehara,Yulai Zhao,Tommaso Biancalani,Sergey Levine
発行日 2024-07-18 17:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM, stat.ML パーマリンク