要約
人間のフィードバックを組み込むことは、大規模な言語モデルによって生成されたテキストを人間の好みに合わせるために重要であることが示されています。
出力が入力画像と編集指示に基づいて生成される最先端の教育用画像編集モデルは、出力がユーザーの正しい指示と好みに準拠していない可能性があるため、同様に人間のフィードバックから恩恵を受ける可能性があると仮定しています。
.
この論文では、教育用ビジュアル編集 (HIVE) のための人間のフィードバックを利用するための新しいフレームワークを提示します。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、根底にあるユーザーの好みを捉えます。
次に、推定報酬に基づいて人間の好みを組み込むことができるスケーラブルな拡散モデルの微調整方法を紹介します。
さらに、データの制限によってもたらされるバイアスを軽減するために、新しい 1M のトレーニング データセット、報酬学習用の 3.6K の報酬データセット、教育用画像編集のパフォーマンスを向上させる 1K の評価データセットを提供します。
HIVE が以前の最先端の教育用画像編集アプローチよりも大幅に支持されていることを示す、広範な実証実験を定量的および定性的に実施します。
要約(オリジナル)
Incorporating human feedback has been shown to be crucial to align text generated by large language models to human preferences. We hypothesize that state-of-the-art instructional image editing models, where outputs are generated based on an input image and an editing instruction, could similarly benefit from human feedback, as their outputs may not adhere to the correct instructions and preferences of users. In this paper, we present a novel framework to harness human feedback for instructional visual editing (HIVE). Specifically, we collect human feedback on the edited images and learn a reward function to capture the underlying user preferences. We then introduce scalable diffusion model fine-tuning methods that can incorporate human preferences based on the estimated reward. Besides, to mitigate the bias brought by the limitation of data, we contribute a new 1M training dataset, a 3.6K reward dataset for rewards learning, and a 1K evaluation dataset to boost the performance of instructional image editing. We conduct extensive empirical experiments quantitatively and qualitatively, showing that HIVE is favored over previous state-of-the-art instructional image editing approaches by a large margin.
arxiv情報
著者 | Shu Zhang,Xinyi Yang,Yihao Feng,Can Qin,Chia-Chih Chen,Ning Yu,Zeyuan Chen,Huan Wang,Silvio Savarese,Stefano Ermon,Caiming Xiong,Ran Xu |
発行日 | 2023-03-16 19:47:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google