AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

要約

Text-to-Image (T2I) 拡散モデルは、画像生成において目覚ましい成功を収めています。
進歩にもかかわらず、即時追従能力、画像品質、およびこれらのモデルを改良するために不可欠な高品質のデータセットの欠如の両方において課題が残っています。
ラベル付きデータの取得にはコストがかかるため、完全に AI 主導のアプローチで Direct Preference Optimization (DPO) を通じて T2I 拡散モデルを強化するフレームワークである AGFSync を導入します。
AGFSync は、視覚言語モデル (VLM) を利用して、スタイル、一貫性、美しさ全体の画質を評価し、AI 駆動のループ内でフィードバック データを生成します。
SD v1.4、v1.5、SDXL ベースなどの主要な T2I モデルに AGFSync を適用することにより、TIFA データセットでの広範な実験により、VQA スコア、美的評価、HPSv2 ベンチマークのパフォーマンスが顕著に向上し、一貫してパフォーマンスが向上することが実証されました。
ベースモデル。
AGFSync の T2I 拡散モデルを改良する方法は、スケーラブルな調整技術への道を開きます。
私たちのコードとデータセットは https://anjingkun.github.io/AGFSync で公開されています。

要約(オリジナル)

Text-to-Image (T2I) diffusion models have achieved remarkable success in image generation. Despite their progress, challenges remain in both prompt-following ability, image quality and lack of high-quality datasets, which are essential for refining these models. As acquiring labeled data is costly, we introduce AGFSync, a framework that enhances T2I diffusion models through Direct Preference Optimization (DPO) in a fully AI-driven approach. AGFSync utilizes Vision-Language Models (VLM) to assess image quality across style, coherence, and aesthetics, generating feedback data within an AI-driven loop. By applying AGFSync to leading T2I models such as SD v1.4, v1.5, and SDXL-base, our extensive experiments on the TIFA dataset demonstrate notable improvements in VQA scores, aesthetic evaluations, and performance on the HPSv2 benchmark, consistently outperforming the base models. AGFSync’s method of refining T2I diffusion models paves the way for scalable alignment techniques. Our code and dataset are publicly available at https://anjingkun.github.io/AGFSync.

arxiv情報

著者 Jingkun An,Yinghao Zhu,Zongjian Li,Enshen Zhou,Haoran Feng,Xijie Huang,Bohua Chen,Yemin Shi,Chengwei Pan
発行日 2024-12-19 02:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク