要約
視覚言語モデルを評価するための、新たな挑戦的な多分野、多モード、多言語試験ベンチマークである EXAMS-V を紹介します。
これは、自然科学、社会科学、その他のさまざまな研究 (宗教、美術、ビジネスなど) をカバーする 20 の学校分野にわたる 20,932 の多肢選択問題で構成されています。EXAMS-V には、テキスト、画像、
表、図、図、地図、科学記号、方程式。
質問は 7 言語族の 11 言語で行われます。
既存のベンチマークとは異なり、EXAMS-V は、さまざまな教育制度を持つさまざまな国の学校試験問題を収集して独自に作成されています。
この独特のアプローチは、多様な言語にわたる複雑な推論を必要とし、地域固有の知識に依存します。
データセットの問題を解決するには、画像のテキストと視覚的な内容に対する高度な認識と共同の推論が必要です。
私たちの評価結果は、これが困難なデータセットであることを示しており、GPT-4V や Gemini などの高度なビジョンテキスト モデルでも困難です。
これは、データセットの本質的な複雑さと、将来のベンチマークとしてのその重要性を強調しています。
要約(オリジナル)
We introduce EXAMS-V, a new challenging multi-discipline multimodal multilingual exam benchmark for evaluating vision language models. It consists of 20,932 multiple-choice questions across 20 school disciplines covering natural science, social science, and other miscellaneous studies, e.g., religion, fine arts, business, etc. EXAMS-V includes a variety of multimodal features such as text, images, tables, figures, diagrams, maps, scientific symbols, and equations. The questions come in 11 languages from 7 language families. Unlike existing benchmarks, EXAMS-V is uniquely curated by gathering school exam questions from various countries, with a variety of education systems. This distinctive approach calls for intricate reasoning across diverse languages and relies on region-specific knowledge. Solving the problems in the dataset requires advanced perception and joint reasoning over the text and the visual content of the image. Our evaluation results demonstrate that this is a challenging dataset, which is difficult even for advanced vision-text models such as GPT-4V and Gemini; this underscores the inherent complexity of the dataset and its significance as a future benchmark.
arxiv情報
著者 | Rocktim Jyoti Das,Simeon Emilov Hristov,Haonan Li,Dimitar Iliyanov Dimitrov,Ivan Koychev,Preslav Nakov |
発行日 | 2024-03-15 15:08:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google