Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

要約

RLHF や DPO など、人間の好みに基づいた最新のアライメント手法は、通常、トレーニングの安定性を確保するために、参照モデルに対する発散正則化を採用しています。
ただし、これにより、特に嗜好データと参照モデルの間に明らかな分布の不一致がある場合、調整中のモデルの柔軟性が制限されることがよくあります。
この論文では、Stable Diffusion XL (SDXL) などの最近のテキストから画像への拡散モデルの調整に焦点を当て、構造化されていない性質のため、この「参照の不一致」がこれらのモデルの調整において実際に重大な問題であることを発見しました。
視覚的なモダリティの違い: たとえば、特定の文体的側面に対する好みは、そのような不一致を容易に引き起こす可能性があります。
この観察に動機付けられて、我々は、参照モデルに依存しない、拡散モデルのための新規でメモリに優しい選好調整方法、つまりマージンを意識した選好最適化(MaPO)という造語を提案します。
MaPO は、好ましい画像セットと好ましくない画像セットの間の尤度マージンと好ましい画像セットの尤度を共同で最大化し、同時に一般的な文体の特徴と好みを学習します。
評価のために、SDXL、Pick-Style、および Pick-Safety から自己生成された画像ペアで構成される 2 つの新しいペアワイズ優先データセットを導入し、参照不一致のさまざまなシナリオをシミュレートします。
私たちの実験では、MaPO が Pick-a-Pic v2 と併用すると、Pick-Style と Pick-Safety の位置合わせと一般的な設定の位置合わせが大幅​​に改善され、ベースの SDXL やその他の既存の方法を上回ることが検証されました。
私たちのコード、モデル、データセットは https://mapo-t2i.github.io 経由で公開されています。

要約(オリジナル)

Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear distributional discrepancy between the preference data and the reference model. In this paper, we focus on the alignment of recent text-to-image diffusion models, such as Stable Diffusion XL (SDXL), and find that this ‘reference mismatch’ is indeed a significant problem in aligning these models due to the unstructured nature of visual modalities: e.g., a preference for a particular stylistic aspect can easily induce such a discrepancy. Motivated by this observation, we propose a novel and memory-friendly preference alignment method for diffusion models that does not depend on any reference model, coined margin-aware preference optimization (MaPO). MaPO jointly maximizes the likelihood margin between the preferred and dispreferred image sets and the likelihood of the preferred sets, simultaneously learning general stylistic features and preferences. For evaluation, we introduce two new pairwise preference datasets, which comprise self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating diverse scenarios of reference mismatch. Our experiments validate that MaPO can significantly improve alignment on Pick-Style and Pick-Safety and general preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and other existing methods. Our code, models, and datasets are publicly available via https://mapo-t2i.github.io

arxiv情報

著者 Jiwoo Hong,Sayak Paul,Noah Lee,Kashif Rasul,James Thorne,Jongheon Jeong
発行日 2024-06-10 16:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク