VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models

要約

大規模な視覚言語モデル(LVLMS)は、マルチモーダルタスクで強力なパフォーマンスを実証していますが、推論プロセス中にバイアスのためにエラーが発生する場合があります。
最近、報酬モデル(RMS)は、推論プロセスでますます極めて重要になっています。
具体的には、プロセスRMSは各推論ステップを評価し、結果RMSが推論結果の評価に焦点を当て、批評RMS RMSが推論プロセス全体でエラー分析を実行し、それに続いて修正を行います。
ただし、ビジョン言語RMS(VLRMS)の既存のベンチマークは、通常、機能の単一の側面のみを評価します(たとえば、2つの回答を区別します)。
このギャップに対処するために、vlrmbenchと呼ばれる包括的で挑戦的なベンチマークを提案し、12,634の質問を網羅しています。
VLRMBenchは、数学的推論、幻覚の理解、およびマルチイメージの理解をカバーする3つの異なるタイプのデータセットに基づいて構築されています。
3つの主要なカテゴリにわたって12のタスクを設計し、プロセスの理解、結果の判断、批評の生成の側面におけるVLRMの評価に焦点を当てています。
21のオープンソースモデルと5つの高度な閉鎖モデルで広範な実験が行われ、VLRMBenchがもたらす課題を強調しています。
たとえば、バイナリ分類タスクである「将来の予測」では、高度なGPT-4oは76.0%の精度のみを達成します。
さらに、包括的な分析研究を実施し、VLRMSの将来の発展に貴重な洞察を提供します。
VLRMBenchは、VLRMを進める上で重要なベンチマークとして機能すると予想しています。
コードとデータセットはhttps://github.com/jcruan519/vlrmbenchで入手できます。

要約(オリジナル)

Although large visual-language models (LVLMs) have demonstrated strong performance in multimodal tasks, errors may occasionally arise due to biases during the reasoning process. Recently, reward models (RMs) have become increasingly pivotal in the reasoning process. Specifically, process RMs evaluate each reasoning step, outcome RMs focus on the assessment of reasoning results, and critique RMs perform error analysis on the entire reasoning process, followed by corrections. However, existing benchmarks for vision-language RMs (VLRMs) typically assess only a single aspect of their capabilities (e.g., distinguishing between two answers), thus limiting the all-round evaluation and restricting the development of RMs in the visual-language domain. To address this gap, we propose a comprehensive and challenging benchmark, dubbed as VLRMBench, encompassing 12,634 questions. VLRMBench is constructed based on three distinct types of datasets, covering mathematical reasoning, hallucination understanding, and multi-image understanding. We design 12 tasks across three major categories, focusing on evaluating VLRMs in the aspects of process understanding, outcome judgment, and critique generation. Extensive experiments are conducted on 21 open-source models and 5 advanced closed-source models, highlighting the challenges posed by VLRMBench. For instance, in the `Forecasting Future’, a binary classification task, the advanced GPT-4o achieves only a 76.0% accuracy. Additionally, we perform comprehensive analytical studies, offering valuable insights for the future development of VLRMs. We anticipate that VLRMBench will serve as a pivotal benchmark in advancing VLRMs. Code and datasets will be available at https://github.com/JCruan519/VLRMBench.

arxiv情報

著者 Jiacheng Ruan,Wenzhen Yuan,Xian Gao,Ye Guo,Daoxin Zhang,Zhe Xu,Yao Hu,Ting Liu,Yuzhuo Fu
発行日 2025-03-10 15:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク