Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要約

サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調整アプローチである拡散シャープニングを提案します。
既存のRLベースの微調整方法は、単一のトレーニングタイムステップに焦点を当て、軌道レベルのアラインメントを無視しますが、最近のサンプリング軌道最適化方法は、重要な推論NFEコストを受けます。
拡散シャプニングは、パス積分フレームワークを使用してトレーニング中に最適な軌跡を選択し、報酬フィードバックを活用し、推論コストを償却することにより、これを克服します。
私たちの方法は、追加のNFEを必要とせずに、収束を速くし、最良の推論効率を備えた優れたトレーニング効率を示しています。
広範な実験では、拡散シャプニングがRLベースの微調整方法(拡散-DPOなど)とサンプリング軌道最適化方法(例:推論スケーリング)が、テキストアライメント、構成機能、人間の好みを含む多様なメトリック全体にわたって優れていることが示されています。
将来の拡散モデルの微調整のための効率的なソリューション。
コード:https://github.com/gen-verse/diffusion-sharpening

要約(オリジナル)

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

arxiv情報

著者 Ye Tian,Ling Yang,Xinchen Zhang,Yunhai Tong,Mengdi Wang,Bin Cui
発行日 2025-02-17 18:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク