LLaVA-Critic: Learning to Evaluate Multimodal Models

要約

LLaVA-Criticを紹介する。LLaVA-Criticは、幅広いマルチモーダルなタスクのパフォーマンスを評価するためのジェネラリスト評価器として設計された、初のオープンソース大規模マルチモーダルモデル(LMM)である。LLaVA-Criticは、多様な評価基準とシナリオを組み込んだ、高品質な批評家の指示に従うデータセットを用いて学習される。(1)LMM-as-a-Judgeでは、LLaVA-Criticは信頼性の高い評価スコアを提供し、複数の評価ベンチマークにおいてGPTモデルと同等か、GPTモデルを上回るパフォーマンスを示す。この研究は、オープンソースLMMの自己批評と評価の可能性を強調し、スケーラブルで超人的なLMMのアライメントフィードバックメカニズムの将来の研究のための舞台を提供する。

要約(オリジナル)

We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model’s effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

arxiv情報

著者 Tianyi Xiong,Xiyao Wang,Dong Guo,Qinghao Ye,Haoqi Fan,Quanquan Gu,Heng Huang,Chunyuan Li
発行日 2024-10-03 17:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク