要約
私たちは、人間の好みのフィードバックからテキストから画像へのモデルを学習し、改善するための包括的なソリューションを紹介します。
まず、人間の好みを効果的にエンコードするために、ImageReward (初の汎用テキストから画像への人間の好みの報酬モデル) を構築します。
そのトレーニングは、これまでに 137,000 人の専門家の比較を収集した、評価やランキングを含む体系的な注釈パイプラインに基づいています。
人間による評価では、ImageReward は既存のスコアリング モデルや指標よりも優れたパフォーマンスを示し、テキストと画像の合成を評価するための有望な自動指標となっています。
それに加えて、スコアラーに対して拡散モデルを最適化する直接調整アルゴリズムである報酬フィードバック学習 (ReFL) を提案します。
自動評価と人間による評価の両方が、比較した方法に対する ReFL の利点を裏付けています。
すべてのコードとデータセットは \url{https://github.com/THUDM/ImageReward} で提供されます。
要約(オリジナル)
We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward — the first general-purpose text-to-image human preference reward model — to effectively encode human preferences. Its training is based on our systematic annotation pipeline including rating and ranking, which collects 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring models and metrics, making it a promising automatic metric for evaluating text-to-image synthesis. On top of it, we propose Reward Feedback Learning (ReFL), a direct tuning algorithm to optimize diffusion models against a scorer. Both automatic and human evaluation support ReFL’s advantages over compared methods. All code and datasets are provided at \url{https://github.com/THUDM/ImageReward}.
arxiv情報
著者 | Jiazheng Xu,Xiao Liu,Yuchen Wu,Yuxuan Tong,Qinkai Li,Ming Ding,Jie Tang,Yuxiao Dong |
発行日 | 2023-12-28 14:13:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google