VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

要約

Vision-Language Generative Reward Models(VL-GenRMS)は、マルチモーダルAIシステムの整合と評価に重要な役割を果たしますが、独自の評価は未調査のままです。
現在の評価方法は、主に従来のVLタスクからのAi-Antatedの好みラベルに依存しています。これは、バイアスを導入することができ、多くの場合、最先端のモデルに効果的に挑戦できません。
これらの制限に対処するために、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークであるVL-Rewardbenchを紹介します。
サンプル選択と人間の検証を組み合わせたAIアシストアノテーションパイプラインを通じて、VL-GenRMSの制限をプローブするために特別に設計された1,250の高品質の例をキュレートします。
16の主要な大規模な視覚言語モデルにわたる包括的な評価は、GPT-4oでさえ65.4%の精度しか達成されず、QWEN2-VL-72Bなどの最先端のオープンソースモデルでさえ、ランダムゲッシングを超える苦労を達成する挑戦的なテストベンチとしてのVL-Rewardbenchの有効性を示しています。
重要なことに、VL-Rewardbenchのパフォーマンスは、VL-GenRMSを使用したBest-n-n Samplingを使用して、MMMU-Pro精度と強く相関しています(PearsonのR $ $ 0.9)。
分析実験VL-GENRMSを改善するための3つの重要な洞察を明らかにします。(i)モデルは、推論タスクではなく、基本的な視覚認識タスクで主に失敗します。
(ii)推論時間スケーリングの利点は、モデル容量によって劇的に異なります。
(iii)大幅に判断力を高めることを学ぶためのVL-GenRMSのトレーニング(7B VL-GenRMの+14.7%の精度)。
VL-Rewardbenchと実験的な洞察は、VL-GenRMを進めるための貴重なリソースになると考えています。

要約(オリジナル)

Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline that combines sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe VL-GenRMs limitations. Comprehensive evaluation across 16 leading large vision-language models demonstrates VL-RewardBench’s effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson’s r $>$ 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

arxiv情報

著者 Lei Li,Yuancheng Wei,Zhihui Xie,Xuqing Yang,Yifan Song,Peiyi Wang,Chenxin An,Tianyu Liu,Sujian Li,Bill Yuchen Lin,Lingpeng Kong,Qi Liu
発行日 2025-06-02 05:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク