ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

要約

大規模なマルチモーダルモデル(LMM)がより能力が高まるにつれて、最終出力とともに推論プロセスを評価することに関心が高まっています。
ただし、ほとんどのベンチマークは、アラビア語などの豊かな言語的および文化的文脈を持つ言語を見下ろす英語に焦点を当てています。
このギャップに対処するために、アラビア語のマルチモーダル推論ベンチマーク(ARB)を紹介します。これは、テキストおよび視覚モダリティの両方でアラビア語の段階的な推論を評価するために設計された最初のベンチマークです。
ARBは、視覚的推論、文書の理解、OCR、科学分析、文化的解釈など、11の多様なドメインにまたがっています。
これは、5,119のヒューマンキュレーションの推論ステップと対応するアクションとペアになった1,356のマルチモーダルサンプルで構成されています。
私たちは、12の最先端のオープンソースLMMと閉鎖LMMを評価し、一貫性、忠実さ、文化的基盤に持続的な課題を発見しました。
ARBは、過小評価されている言語でマルチモーダル推論を診断するための構造化されたフレームワークを提供し、包括的、透明性、文化的に認識しているAIシステムへの重要なステップをマークします。
将来の研究と再現性をサポートするために、ベンチマーク、ルーブリック、および評価スーツをリリースします。
https://github.com/mbzuai-oryx/arbで利用可能なコード

要約(オリジナル)

As Large Multimodal Models (LMMs) become more capable, there is growing interest in evaluating their reasoning processes alongside their final outputs. However, most benchmarks remain focused on English, overlooking languages with rich linguistic and cultural contexts, such as Arabic. To address this gap, we introduce the Comprehensive Arabic Multimodal Reasoning Benchmark (ARB), the first benchmark designed to evaluate step-by-step reasoning in Arabic across both textual and visual modalities. ARB spans 11 diverse domains, including visual reasoning, document understanding, OCR, scientific analysis, and cultural interpretation. It comprises 1,356 multimodal samples paired with 5,119 human-curated reasoning steps and corresponding actions. We evaluated 12 state-of-the-art open- and closed-source LMMs and found persistent challenges in coherence, faithfulness, and cultural grounding. ARB offers a structured framework for diagnosing multimodal reasoning in underrepresented languages and marks a critical step toward inclusive, transparent, and culturally aware AI systems. We release the benchmark, rubric, and evaluation suit to support future research and reproducibility. Code available at: https://github.com/mbzuai-oryx/ARB

arxiv情報

著者 Sara Ghaboura,Ketan More,Wafa Alghallabi,Omkar Thawakar,Jorma Laaksonen,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer
発行日 2025-05-22 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク