Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

要約

大規模な言語モデルを人間の好みに合わせることが、言語モデリング研究における重要な焦点として浮上しています。
しかし、嗜好学習を Text-to-Image (T2I) 生成モデルに統合することは、まだ比較的未知の領域です。
Diffusion-DPO 技術は、特定のテキストプロンプトに合わせて調整された拡散モデルでペアごとの嗜好学習を採用することで、最初の進歩を遂げました。
拡散ベースの T2I モデルを人間の好みに合わせてより効果的に調整するために設計された新しい手法である Diffusion-RPO を紹介します。
このアプローチでは、同一のプロンプトを持つプロンプトと画像のペアと、さまざまなモダリティにわたって意味的に関連するコンテンツを持つプロンプト画像ペアの両方を利用します。
さらに、人間の好みの調整の現在の評価に広く見られる高コスト、低い再現性、解釈可能性の制限という課題を克服することを目的とした、新しい評価指標であるスタイル調整を開発しました。
私たちの調査結果は、Stable Diffusion バージョン 1.5 および XL-1.0 のチューニングにおいて、Diffusion-RPO が教師付きファインチューニングや Diffusion-DPO などの確立された方法よりも優れたパフォーマンスを示し、人間の好みの自動評価とスタイル調整の両方で優れた結果を達成することを示しています。
私たちのコードは https://github.com/yigu1008/Diffusion-RPO で入手できます。

要約(オリジナル)

Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relatively uncharted territory. The Diffusion-DPO technique made initial strides by employing pairwise preference learning in diffusion models tailored for specific text prompts. We introduce Diffusion-RPO, a new method designed to align diffusion-based T2I models with human preferences more effectively. This approach leverages both prompt-image pairs with identical prompts and those with semantically related content across various modalities. Furthermore, we have developed a new evaluation metric, style alignment, aimed at overcoming the challenges of high costs, low reproducibility, and limited interpretability prevalent in current evaluations of human preference alignment. Our findings demonstrate that Diffusion-RPO outperforms established methods such as Supervised Fine-Tuning and Diffusion-DPO in tuning Stable Diffusion versions 1.5 and XL-1.0, achieving superior results in both automated evaluations of human preferences and style alignment. Our code is available at https://github.com/yigu1008/Diffusion-RPO

arxiv情報

著者	Yi Gu,Zhendong Wang,Yueqin Yin,Yujia Xie,Mingyuan Zhou
発行日	2024-06-10 15:42:03+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー