Human Preference Score: Better Aligning Text-to-Image Models with Human Preference

要約

近年、深い生成モデルが急速に成長しており、テキストから画像へのモデルが世間から大きな注目を集めています。
しかし、既存のモデルでは、手足や顔の表情の組み合わせがぎこちないなど、人間の好みに合わない画像が生成されることがよくあります。
この問題に対処するために、Stable Foundation Discord チャネルから生成された画像に対する人間の選択のデータセットを収集します。
私たちの実験は、生成モデルの現在の評価指標が人間の選択と十分に相関していないことを示しています。
したがって、収集されたデータセットを使用して人間の好みの分類器をトレーニングし、分類器に基づいて人間の好みスコア (HPS) を導き出します。
HPS を使用して、人間の好みに合わせて安定拡散を適応させるシンプルかつ効果的な方法を提案します。
私たちの実験では、HPS が人間の選択の予測において CLIP よりも優れており、他のモデルから生成された画像に対して優れた一般化機能を備えていることがわかりました。
HPS のガイダンスで安定拡散を調整することにより、適応されたモデルは人間のユーザーにより好まれる画像を生成できます。
プロジェクト ページは https://tgxs002.github.io/align_sd_web/ から入手できます。

要約(オリジナル)

Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human preferences. Our experiments show that HPS outperforms CLIP in predicting human choices and has good generalization capability toward images generated from other models. By tuning Stable Diffusion with the guidance of HPS, the adapted model is able to generate images that are more preferred by human users. The project page is available here: https://tgxs002.github.io/align_sd_web/ .

arxiv情報

著者 Xiaoshi Wu,Keqiang Sun,Feng Zhu,Rui Zhao,Hongsheng Li
発行日 2023-08-22 12:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク