OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

要約

最近の進歩により、大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、さまざまなタスクにおいて一般的な人間の能力を上回り、複数の領域にわたる人間の専門家の熟練度レベルに近づいています。
これらのモデルにとって従来のベンチマークの難しさが軽減されているため、高度な能力を評価するには新しい厳しい課題が不可欠です。
この研究では、オリンピックレベルのバイリンガルマルチモーダル科学ベンチマークである OlympiadBench を紹介します。これには、中国の大学入学試験を含む、オリンピックレベルの数学および物理コンテストからの 8,952 の問題が含まれています。
各問題は、段階的に推論するための専門家レベルの注釈で詳細に説明されています。
OlympiadBench で最上位モデルを評価する際、モデルの応答を正確に評価するための包括的な評価手法を実装しています。
特に、最もパフォーマンスの高いモデルである GPT-4V は、OlympiadBench で 17.23% の平均スコアを達成しましたが、物理学ではわずか 11.28% であり、ベンチマークの厳密さと物理的推論の複雑さを浮き彫りにしています。
GPT-4V を指向した私たちの分析は、幻覚、知識の欠落、論理的誤りに関する一般的な問題を指摘しています。
私たちの挑戦的なベンチマークが、将来の AGI 研究活動を支援するための貴重なリソースとして役立つことを願っています。

要約(オリジナル)

Recent advancements have seen Large Language Models (LLMs) and Large Multimodal Models (LMMs) surpassing general human capabilities in various tasks, approaching the proficiency level of human experts across multiple domains. With traditional benchmarks becoming less challenging for these models, new rigorous challenges are essential to gauge their advanced abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual multimodal scientific benchmark, featuring 8,952 problems from Olympiad-level mathematics and physics competitions, including the Chinese college entrance exam. Each problem is detailed with expert-level annotations for step-by-step reasoning. Evaluating top-tier models on OlympiadBench, we implement a comprehensive assessment methodology to accurately evaluate model responses. Notably, the best-performing model, GPT-4V, attains an average score of 17.23% on OlympiadBench, with a mere 11.28% in physics, highlighting the benchmark rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V points out prevalent issues with hallucinations, knowledge omissions, and logical fallacies. We hope that our challenging benchmark can serve as a valuable resource for helping future AGI research endeavors.

arxiv情報

著者	Chaoqun He,Renjie Luo,Yuzhuo Bai,Shengding Hu,Zhen Leng Thai,Junhao Shen,Jinyi Hu,Xu Han,Yujie Huang,Yuxiang Zhang,Jie Liu,Lei Qi,Zhiyuan Liu,Maosong Sun
発行日	2024-02-21 18:49:26+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー