HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

要約

大規模なマルチモーダルモデル(LMMS)は現在、多くのビジョン言語ベンチマークに優れていますが、人間の価値観と整合するための鍵は、公平性、倫理、共感、包括性などの人間の中心的な基準と依然として闘っています。
スケーラブルなGPT4Oアシストパイプラインを介して注釈を付け、ドメインの専門家によって徹底的に検証された、32Kの実世界の画像質問ペアの全体的なベンチマークであるHumanibenchを紹介します。
Humanibenchは、7つの人間の中心的なAI(HCAI)の原則を評価します:公平性、倫理、理解、推論、言語の包括性、共感、堅牢性、オープンおよびクローズドエンドの視覚的質問の回答(VQA)、多言語QA、視覚接地、視覚的接地、感動的なキャプション、堅牢性テストを含む7つの多様なタスク。
ベンチマーク15最先端のLMMS(オープンソースとクローズソース)は、独自のモデルが一般的にリードしていることを明らかにしていますが、堅牢性と視覚的接地は弱い点のままです。
一部のオープンソースモデルは、精度と人間に並べられた原則の順守とのバランスをとるのに苦労しています。
Humanibenchは、HCAIの原則を中心に構築された最初のベンチマーク目的です。
これは、正確で社会的に責任のある行動に向けて、アライメントギャップを診断し、LMMを導くための厳密なテストベッドを提供します。
データセット、注釈プロンプト、および評価コードは、https://vectorinstitute.github.io/humanibenchで入手できます。

要約(オリジナル)

Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench

arxiv情報

著者 Shaina Raza,Aravind Narayanan,Vahid Reza Khazaie,Ashmal Vayani,Mukund S. Chettiar,Amandeep Singh,Mubarak Shah,Deval Pandya
発行日 2025-05-16 17:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク