Aligning Text-to-Image Models using Human Feedback

要約

深い生成モデルは、テキストから画像への合成において印象的な結果を示しています。
ただし、現在のテキストから画像へのモデルでは、テキスト プロンプトとの整合性が不十分な画像が生成されることがよくあります。
人間のフィードバックを使用してそのようなモデルを調整するための微調整方法を提案します。これは3つの段階で構成されます。
まず、一連の多様なテキスト プロンプトから、モデル出力の整合性を評価する人間のフィードバックを収集します。
次に、人間がラベル付けした画像とテキストのデータセットを使用して、人間のフィードバックを予測する報酬関数をトレーニングします。
最後に、テキストから画像へのモデルは、報酬で重み付けされた可能性を最大化することによって微調整され、画像とテキストの配置が改善されます。
私たちの方法は、事前にトレーニングされたモデルよりも正確に、指定された色、数、および背景を持つオブジェクトを生成します。
また、いくつかの設計上の選択を分析し、配置と忠実度のトレードオフのバランスを取るには、そのような設計の選択に関する慎重な調査が重要であることを発見しました。
私たちの結果は、人間のフィードバックから学習することで、テキストから画像へのモデルを大幅に改善できる可能性を示しています。

要約(オリジナル)

Deep generative models have shown impressive results in text-to-image synthesis. However, current text-to-image models often generate images that are inadequately aligned with text prompts. We propose a fine-tuning method for aligning such models using human feedback, comprising three stages. First, we collect human feedback assessing model output alignment from a set of diverse text prompts. We then use the human-labeled image-text dataset to train a reward function that predicts human feedback. Lastly, the text-to-image model is fine-tuned by maximizing reward-weighted likelihood to improve image-text alignment. Our method generates objects with specified colors, counts and backgrounds more accurately than the pre-trained model. We also analyze several design choices and find that careful investigations on such design choices are important in balancing the alignment-fidelity tradeoffs. Our results demonstrate the potential for learning from human feedback to significantly improve text-to-image models.

arxiv情報

著者 Kimin Lee,Hao Liu,Moonkyung Ryu,Olivia Watkins,Yuqing Du,Craig Boutilier,Pieter Abbeel,Mohammad Ghavamzadeh,Shixiang Shane Gu
発行日 2023-02-23 17:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク