PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model

要約

大規模なビジョン言語モデル(LVLMS)の既存の多言語ベンチマークは、言語固有のコンテンツバイアス、ばらばらのマルチモーダル入力形式、安全評価の欠如などの制限に悩まされています。
これらのギャップに対処するために、LVLMSの最初の並行多言語マルチモーダルマルチタスクベンチマークであるPM4Benchを提案します。
PM4Benchは、10の言語にわたって並列コーパス設計を備えており、公正かつ正確な横断的比較を可能にします。
これには、テキストとクエリが画像に組み込まれているビジョン設定が含まれ、LVLMが同時に「表示」、「読み取り」、および「Think」を必要とし、実際のアプリケーションと整合します。
さらに、PM \ TextSuperScript {4}ベンチには、安全評価が組み込まれており、既存の多言語ベンチマークの重要な監視に対処します。
PM4ベンチを使用して、11の主流LVLMSを評価し、特に視覚設定で重要な言語間パフォーマンスの格差を明らかにし、OCR能力をこれらの不均衡の重要な決定要因として特定します。
https://github.com/opendatalab/pm4benchでPM4Benchをリリースします。

要約(オリジナル)

Existing multilingual benchmarks for Large Vision Language Models (LVLMs) suffer from limitations including language-specific content biases, disjointed multimodal input formats, and a lack of safety evaluation. To address these gaps, we propose PM4Bench, the first Parallel Multilingual Multi-Modal Multi-task Benchmark for LVLMs. PM4Bench features a parallel corpus design across 10 languages, enabling fair and accurate cross-lingual comparisons. It includes the vision setting where text and queries are embedded in images, requiring LVLMs to simultaneously ‘see’, ‘read’, and ‘think’, aligning with real-world applications. Additionally, PM\textsuperscript{4}Bench incorporates safety evaluations, addressing critical oversight in existing multilingual benchmarks. Using PM4Bench, we evaluate 11 mainstream LVLMs, revealing significant cross-linguistic performance disparities, particularly in vision settings, and identifying OCR capability as a key determinant of these imbalances. We will release PM4Bench at https://github.com/opendatalab/PM4Bench .

arxiv情報

著者 Junyuan Gao,Jiahe Song,Jiang Wu,Runchuan Zhu,Guanlin Shen,Shasha Wang,Xingjian Wei,Haote Yang,Songyang Zhang,Weijia Li,Bin Wang,Dahua Lin,Lijun Wu,Conghui He
発行日 2025-03-24 09:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク