要約
我々は、視覚生成モデル (画像生成とビデオ生成の両方) を人間の好みに合わせるための一般的な戦略を提示します。
まず、きめ細かい多次元の報酬モデルである VisionReward を構築します。
画像やビデオにおける人間の好みを複数の次元に分解し、それぞれの次元が一連の判断質問によって表され、線形に重み付けされて合計され、解釈可能な正確なスコアが得られます。
ビデオ品質評価の課題に対処するために、ビデオのさまざまな動的特徴を体系的に分析することで、VisionReward が VideoScore を 17.2% 上回り、ビデオの好みの予測で最高のパフォーマンスを達成することができました。
VisionReward に基づいて、嗜好データ内の交絡因子の問題に効果的に対処する多目的嗜好学習アルゴリズムを開発します。
私たちのアプローチは、機械の指標と人間の評価の両方において、既存の画像およびビデオのスコアリング方法を大幅に上回っています。
すべてのコードとデータセットは https://github.com/THUDM/VisionReward で提供されます。
要約(オリジナル)
We present a general strategy to aligning visual generation models — both image and video generation — with human preference. To start with, we build VisionReward — a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.
arxiv情報
著者 | Jiazheng Xu,Yu Huang,Jiale Cheng,Yuanming Yang,Jiajun Xu,Yuan Wang,Wenbo Duan,Shen Yang,Qunlin Jin,Shurun Li,Jiayan Teng,Zhuoyi Yang,Wendi Zheng,Xiao Liu,Ming Ding,Xiaohan Zhang,Xiaotao Gu,Shiyu Huang,Minlie Huang,Jie Tang,Yuxiao Dong |
発行日 | 2024-12-30 16:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google