Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation

要約

最近の研究では、人間の嗜好データセットを活用してテキストから画像への生成モデルを改良し、生成された画像とテキスト プロンプトの間の整合性を高めることの優れた可能性が実証されました。
これらの進歩にもかかわらず、現在の人間の嗜好データセットは構築に法外に費用がかかるか、嗜好次元の多様性の欠如に悩まされており、その結果、オープンソースのテキストから画像への生成モデルにおける命令チューニングの適用性が制限され、さらなる探求の妨げとなっています。
これらの課題に対処し、命令チューニングを通じて生成モデルの調整を促進するために、私たちはマルチモーダル大規模言語モデルを活用して、複数の嗜好の側面を捕捉する高品質で粒度の細かい嗜好データセットである VisionPrefer を作成します。
AI アノテーターからのフィードバックを、即時追従性、美しさ、忠実性、無害性の 4 つの側面にわたって集約して、VisionPrefer を構築します。
VisionPrefer の有効性を検証するために、テキストから画像への生成モデルのトレーニングをガイドするために、VisionPrefer 上で報酬モデル VP-Score をトレーニングします。VP-Score の嗜好予測精度は人間のアノテーターに匹敵します。
さらに、我々は 2 つの強化学習手法を使用して、VisionPrefer のパフォーマンスを評価するために教師あり生成モデルを微調整しました。広範な実験結果は、VisionPrefer がさまざまな側面 (美学など) にわたって合成画像生成におけるテキストと画像の位置合わせを大幅に改善し、より適切に一般化することを示しています。
さまざまな画像配信における以前の人間の好みの指標よりも優れています。
さらに、VisionPrefer は、AI が生成した合成データを監視信号として統合することが、視覚生成モデルにおける人間の好みとの整合性を向上させるための有望な手段であることを示しています。

要約(オリジナル)

Recent studies have demonstrated the exceptional potentials of leveraging human preference datasets to refine text-to-image generative models, enhancing the alignment between generated images and textual prompts. Despite these advances, current human preference datasets are either prohibitively expensive to construct or suffer from a lack of diversity in preference dimensions, resulting in limited applicability for instruction tuning in open-source text-to-image generative models and hinder further exploration. To address these challenges and promote the alignment of generative models through instruction tuning, we leverage multimodal large language models to create VisionPrefer, a high-quality and fine-grained preference dataset that captures multiple preference aspects. We aggregate feedback from AI annotators across four aspects: prompt-following, aesthetic, fidelity, and harmlessness to construct VisionPrefer. To validate the effectiveness of VisionPrefer, we train a reward model VP-Score over VisionPrefer to guide the training of text-to-image generative models and the preference prediction accuracy of VP-Score is comparable to human annotators. Furthermore, we use two reinforcement learning methods to supervised fine-tune generative models to evaluate the performance of VisionPrefer, and extensive experimental results demonstrate that VisionPrefer significantly improves text-image alignment in compositional image generation across diverse aspects, e.g., aesthetic, and generalizes better than previous human-preference metrics across various image distributions. Moreover, VisionPrefer indicates that the integration of AI-generated synthetic data as a supervisory signal is a promising avenue for achieving improved alignment with human preferences in vision generative models.

arxiv情報

著者 Xun Wu,Shaohan Huang,Furu Wei
発行日 2024-04-23 14:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク