Evaluating GPT-4’s Vision Capabilities on Brazilian University Admission Exams

要約

言語モデルの最近の進歩により、大学入学試験において人間と同等の成績が得られるようになりました。
しかし、既存の研究では、視覚的な理解の統合を必要とする質問が見落とされることが多く、そのため、現実世界のシナリオに固有の全範囲と複雑さが損なわれています。
このギャップに対処するために、私たちは、テキスト要素と視覚的要素の両方を組み込んだ、入学試験で言語モデルを評価するための包括的なフレームワークを提示します。
私たちは、ブラジルの大学で採用されている主要な標準入学試験である Exame Nacional do Ensino M\’edio (ENEM) の最新 2 版を評価します。
私たちの研究は、複雑な学際的な質問を処理するための最先端技術としての GPT-4 の機能を再確認するだけでなく、ポルトガル語試験におけるマルチモーダル言語モデルの現実的な評価を提供する先駆者でもあります。
ハイライトの 1 つは、視覚コンテンツを転写するテキスト キャプションが画像を直接使用するよりも優れていることです。これは、視覚モデルに改善の余地があることを示唆しています。
画像やキャプションによって改善がもたらされたにもかかわらず、これらの最先端のモデルにとって数学的な問題は依然として課題です。
実験で使用されたコードとデータは、https://github.com/piresramon/gpt-4-enem で入手できます。

要約(オリジナル)

Recent advancements in language models have showcased human-comparable performance in academic entrance exams. However, existing studies often overlook questions that require the integration of visual comprehension, thus compromising the full spectrum and complexity inherent in real-world scenarios. To address this gap, we present a comprehensive framework to evaluate language models on entrance exams, which incorporates both textual and visual elements. We evaluate the two most recent editions of Exame Nacional do Ensino M\’edio (ENEM), the main standardized entrance examination adopted by Brazilian universities. Our study not only reaffirms the capabilities of GPT-4 as the state of the art for handling complex multidisciplinary questions, but also pioneers in offering a realistic assessment of multimodal language models on Portuguese examinations. One of the highlights is that text captions transcribing visual content outperform the direct use of images, suggesting that the vision model has room for improvement. Yet, despite improvements afforded by images or captions, mathematical questions remain a challenge for these state-of-the-art models. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.

arxiv情報

著者 Ramon Pires,Thales Sales Almeida,Hugo Abonizio,Rodrigo Nogueira
発行日 2023-11-23 19:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク