VHELM: A Holistic Evaluation of Vision Language Models

要約

視覚言語モデル (VLM) を評価するための現在のベンチマークは、多くの場合、その認識能力や問題解決能力に重点を置き、公平性、多言語性、有害性などの他の重要な側面を無視しています。
さらに、評価手順や評価範囲が異なるため、モデルの比較が困難になります。
これらの問題に対処するために、HELM フレームワークを VLM に拡張して、ビジョン言語モデルの全体的評価 (VHELM) を提示します。
VHELM は、視覚認識、知識、推論、偏見、公平性、多言語性、堅牢性、毒性、安全性の 9 つの側面のうち 1 つ以上をカバーするためにさまざまなデータセットを集約します。
そうすることで、これらの重要な要素全体にわたる VLM の機能について、包括的かつ多次元のビューを作成します。
さらに、モデル間の公平な比較を可能にするために、標準的な推論パラメータ、プロンプトの方法、および評価指標を標準化します。
私たちのフレームワークは軽量かつ自動になるように設計されているため、評価の実行が安価かつ迅速になります。
最初の実行では、21 の既存のデータセットで 22 の VLM を評価し、モデルの全体的なスナップショットを提供します。
効率重視のモデル (Claude 3 Haiku や Gemini 1.5 Flash など) は、バイアス ベンチマークではフル モデル (Claude 3 Opus や Gemini 1.5 Pro) よりも大幅にパフォーマンスが低いものの、そうではないという事実など、新たな重要な発見を発見しました。
他の側面から評価すると。
透明性を確保するために、生のモデル生成と完全な結果を Web サイト (https://crfm.stanford.edu/helm/vhelm/v2.0.1) で公開します。
VHELM は生きたベンチマークとなることを目的としており、今後も新しいデータセットとモデルを追加し続けたいと考えています。

要約(オリジナル)

Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

arxiv情報

著者 Tony Lee,Haoqin Tu,Chi Heem Wong,Wenhao Zheng,Yiyang Zhou,Yifan Mai,Josselin Somerville Roberts,Michihiro Yasunaga,Huaxiu Yao,Cihang Xie,Percy Liang
発行日 2024-10-09 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク