要約
豊富なフィードバックシグナルを活用して、テキストから画像への微調整モデルの微調整の好みペアのキュレーションを改善する新しいパイプラインであるRich Preference Optimization(RPO)を紹介します。
拡散DPOのような従来の方法は、多くの場合、不透明である可能性のある報酬モデルのラベル付けだけに依存しており、好みの背後にある理論的根拠に対する限定的な洞察を提供し、報酬のハッキングや過剰フィッティングなどの問題を抱えています。
対照的に、私たちのアプローチは、合成された画像の詳細な批評を生成して、信頼性の高い実用的な画像編集手順を抽出することから始まります。
これらの命令を実装することにより、洗練された画像を作成し、強化されたチューニングデータセットとして機能する合成で有益な好みのペアをもたらします。
パイプラインの有効性と、最先端の拡散モデルの微調整における結果のデータセットを実証します。
要約(オリジナル)
We introduce Rich Preference Optimization (RPO), a novel pipeline that leverages rich feedback signals to improve the curation of preference pairs for fine-tuning text-to-image diffusion models. Traditional methods, like Diffusion-DPO, often rely solely on reward model labeling, which can be opaque, offer limited insights into the rationale behind preferences, and are prone to issues such as reward hacking or overfitting. In contrast, our approach begins with generating detailed critiques of synthesized images to extract reliable and actionable image editing instructions. By implementing these instructions, we create refined images, resulting in synthetic, informative preference pairs that serve as enhanced tuning datasets. We demonstrate the effectiveness of our pipeline and the resulting datasets in fine-tuning state-of-the-art diffusion models.
arxiv情報
著者 | Hanyang Zhao,Haoxian Chen,Yucheng Guo,Genta Indra Winata,Tingting Ou,Ziyu Huang,David D. Yao,Wenpin Tang |
発行日 | 2025-04-16 15:28:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google