要約
近年、さまざまな視覚的推論と理解タスクを実行できる大規模マルチモーダル モデル (LMM) の開発に大きな関心が集まっています。
これにより、さまざまなタスクで LMM を評価するための複数の LMM ベンチマークが導入されました。
ただし、既存の LMM 評価ベンチマークのほとんどは主に英語中心です。
この研究では、4 億人を超える大規模な話者を表すアラビア語の包括的な LMM 評価ベンチマークを開発します。
CAMEL-Benchと名付けられた提案されたベンチマークは、マルチ画像理解、複雑な視覚認識、手書き文書理解、ビデオ理解、医療画像処理、植物病害、リモートセンシングベースの土地利用理解など、8つの多様なドメインと38のサブドメインで構成されています。
広範なシナリオの一般化可能性を評価します。
当社の CAMEL-Bench は、大規模なサンプル プールからフィルタリングされた約 29,036 の質問で構成されており、ネイティブ スピーカーによって品質が手動で検証され、信頼性の高いモデル評価が保証されます。
GPT-4シリーズを含むクローズドソースとオープンソースLMMの両方の評価を実施します。
私たちの分析では、特に最高のオープンソース モデルにおいて大幅な改善の必要性が明らかになり、クローズドソースの GPT-4o でさえ全体スコア 62% を達成しています。
当社のベンチマークおよび評価スクリプトはオープンソースです。
要約(オリジナル)
Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluation benchmarks are predominantly English-centric. In this work, we develop a comprehensive LMM evaluation benchmark for the Arabic language to represent a large population of over 400 million speakers. The proposed benchmark, named CAMEL-Bench, comprises eight diverse domains and 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding to evaluate broad scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions that are filtered from a larger pool of samples, where the quality is manually verified by native speakers to ensure reliable model assessment. We conduct evaluations of both closed-source, including GPT-4 series, and open-source LMMs. Our analysis reveals the need for substantial improvement, especially among the best open-source models, with even the closed-source GPT-4o achieving an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.
arxiv情報
著者 | Sara Ghaboura,Ahmed Heakl,Omkar Thawakar,Ali Alharthi,Ines Riahi,Abduljalil Saif,Jorma Laaksonen,Fahad S. Khan,Salman Khan,Rao M. Anwer |
発行日 | 2024-10-24 17:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google