Calibrated Multi-Preference Optimization for Aligning Diffusion Models

要約

テキストから画像への拡散モデル(T2I)を嗜好最適化によって整合させることは、人間が注釈を付けたデータセットにとって価値があるが、手作業によるデータ収集のコストが大きいため、スケーラビリティに限界がある。しかし、現在の嗜好最適化手法は、対の嗜好分布しか考慮しないため、豊富な情報を利用するには不十分である。さらに、多嗜好シナリオへの汎用性に欠け、報酬間の矛盾を扱うのに苦労している。この問題を解決するために、我々はCalibrated Preference Optimization (CaPO)を提案する。CaPOは、人間による注釈データを用いずに、複数の報酬モデルから一般的な嗜好を取り入れることにより、T2I拡散モデルを整合させる新しい手法である。本アプローチの核となるのは、事前学習されたモデルによって生成されたサンプルに対する期待勝率を計算することによって、一般的な嗜好を近似する報酬較正法である。さらに、パレートフロンティアからペアを選択することで、多選択分布を効果的に管理するフロンティアベースのペア選択法を提案する。最後に、選択されたペアの較正された報酬の差に一致するように、回帰損失を用いて拡散モデルを微調整する。実験の結果、CaPOは、GenEvalやT2I-Compbenchを含むT2Iベンチマークでの評価により検証された、単一報酬と多報酬の両方の設定において、直接選好最適化(DPO)のような先行手法を一貫して上回ることが示された。

要約(オリジナル)

Aligning text-to-image (T2I) diffusion models with preference optimization is valuable for human-annotated datasets, but the heavy cost of manual data collection limits scalability. Using reward models offers an alternative, however, current preference optimization methods fall short in exploiting the rich information, as they only consider pairwise preference distribution. Furthermore, they lack generalization to multi-preference scenarios and struggle to handle inconsistencies between rewards. To address this, we present Calibrated Preference Optimization (CaPO), a novel method to align T2I diffusion models by incorporating the general preference from multiple reward models without human annotated data. The core of our approach involves a reward calibration method to approximate the general preference by computing the expected win-rate against the samples generated by the pretrained models. Additionally, we propose a frontier-based pair selection method that effectively manages the multi-preference distribution by selecting pairs from Pareto frontiers. Finally, we use regression loss to fine-tune diffusion models to match the difference between calibrated rewards of a selected pair. Experimental results show that CaPO consistently outperforms prior methods, such as Direct Preference Optimization (DPO), in both single and multi-reward settings validated by evaluation on T2I benchmarks, including GenEval and T2I-Compbench.

arxiv情報

著者 Kyungmin Lee,Xiaohang Li,Qifei Wang,Junfeng He,Junjie Ke,Ming-Hsuan Yang,Irfan Essa,Jinwoo Shin,Feng Yang,Yinxiao Li
発行日 2025-02-04 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク