VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

要約

視覚言語生成報酬モデル (VL-GenRM) は、マルチモーダル AI システムの調整と評価において重要な役割を果たしていますが、それ自体の評価はまだ十分に研究されていません。
現在の評価方法は主に、従来の VL タスクからの AI アノテーション付き嗜好ラベルに依存しているため、バイアスが生じる可能性があり、最先端のモデルに効果的に対抗できないことがよくあります。
これらの制限に対処するために、一般的なマルチモーダル クエリ、幻視検出、複雑な推論タスクにまたがる包括的なベンチマークである VL-RewardBench を導入します。
サンプルの選択と人間による検証を組み合わせた AI 支援のアノテーション パイプラインを通じて、モデルの限界を調査するために特別に設計された 1,250 個の高品質のサンプルを厳選しています。
16 の主要な大規模ビジョン言語モデルにわたる包括的な評価により、GPT-4o でさえ 65.4% の精度しか達成できない難しいテストベッドとしての VL-RewardBench の有効性と、Qwen2-VL- などの最先端のオープンソース モデルが実証されました。
72B、ランダムな推測を超えるのに苦労しています。
重要なのは、VL-RewardBench のパフォーマンスは、VL-GenRM で Best-of-N サンプリングを使用した MMMU-Pro の精度と強く相関しています (ピアソンの r > 0.9)。
分析実験により、VL-GenRM を改善するための 3 つの重要な洞察が明らかになります。(i) モデルは、推論タスクではなく、基本的な視覚認識タスクで主に失敗します。
(ii) 推論時間のスケーリングの利点はモデルの容量によって大幅に異なります。
(iii) VL-GenRM に判断を学習させるトレーニングにより、判断能力が大幅に向上します (7B VL-GenRM の精度は +14.7%)。
私たちは、VL-RewardBench と実験的洞察が VL-GenRM を進歩させるための貴重なリソースになると信じています。

要約(オリジナル)

Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline combining sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe model limitations. Comprehensive evaluation across 16 leading large vision-language models, demonstrates VL-RewardBench’s effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson’s r > 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

arxiv情報

著者 Lei Li,Yuancheng Wei,Zhihui Xie,Xuqing Yang,Yifan Song,Peiyi Wang,Chenxin An,Tianyu Liu,Sujian Li,Bill Yuchen Lin,Lingpeng Kong,Qi Liu
発行日 2024-11-26 14:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク