OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

要約

人工知能 (AI) の進化は、大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) の進歩によって大幅に加速され、かつては独占的であった問題解決と科学的発見における潜在的な認知推論能力 (つまり、AI4Science) が徐々に明らかになりました。
人間の知性。
認知的推論能力における現在のモデルのパフォーマンスを包括的に評価するために、テキストのみのモダリティとテキストと画像が交互に挿入されたモダリティの両方にわたる 11,163 のバイリンガル問題を含む、OlympicArena を紹介します。
これらの課題には、7 つの分野と 62 の国際オリンピック競技会にまたがる幅広い分野が含まれており、データ漏洩がないか厳しく検査されています。
私たちは、オリンピックの競技問題における課題は、その複雑さと学際的な性質により、AI の認知的推論を評価するのに理想的であり、これらの課題は複雑な科学的課題に取り組み、発見を促進するために不可欠であると主張します。
回答のみの基準を使用してさまざまな分野にわたるパフォーマンスを評価するだけでなく、多角的な観点から詳細な実験と分析を実施します。
私たちは、モデルの認知推論能力、さまざまなモダリティにわたるモデルのパフォーマンス、およびプロセスレベルの評価での結果を詳しく調べます。これらは、長い解決策を伴う複雑な推論を必要とするタスクに不可欠です。
私たちの広範な評価により、GPT-4o のような高度なモデルでさえ全体の精度が 39.97% しか達成されていないことが明らかになりました。これは、複雑な推論とマルチモーダル統合における現在の AI の限界を示しています。
私たちは、OlympicArena を通じて AI を超知性へと進化させ、科学やその他の分野におけるより複雑な課題に対処できるようにすることを目指しています。
また、ベンチマーク データセット、オープンソース アノテーション プラットフォーム、詳細な評価ツール、自動送信機能を備えたリーダーボードなど、AI 研究をサポートするための包括的なリソース セットも提供しています。

要約(オリジナル)

The evolution of Artificial Intelligence (AI) has been significantly accelerated by advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning abilities in problem-solving and scientific discovery (i.e., AI4Science) once exclusive to human intellect. To comprehensively evaluate current models’ performance in cognitive reasoning abilities, we introduce OlympicArena, which includes 11,163 bilingual problems across both text-only and interleaved text-image modalities. These challenges encompass a wide range of disciplines spanning seven fields and 62 international Olympic competitions, rigorously examined for data leakage. We argue that the challenges in Olympic competition problems are ideal for evaluating AI’s cognitive reasoning due to their complexity and interdisciplinary nature, which are essential for tackling complex scientific challenges and facilitating discoveries. Beyond evaluating performance across various disciplines using answer-only criteria, we conduct detailed experiments and analyses from multiple perspectives. We delve into the models’ cognitive reasoning abilities, their performance across different modalities, and their outcomes in process-level evaluations, which are vital for tasks requiring complex reasoning with lengthy solutions. Our extensive evaluations reveal that even advanced models like GPT-4o only achieve a 39.97% overall accuracy, illustrating current AI limitations in complex reasoning and multimodal integration. Through the OlympicArena, we aim to advance AI towards superintelligence, equipping it to address more complex challenges in science and beyond. We also provide a comprehensive set of resources to support AI research, including a benchmark dataset, an open-source annotation platform, a detailed evaluation tool, and a leaderboard with automatic submission features.

arxiv情報

著者 Zhen Huang,Zengzhi Wang,Shijie Xia,Xuefeng Li,Haoyang Zou,Ruijie Xu,Run-Ze Fan,Lyumanshan Ye,Ethan Chern,Yixin Ye,Yikai Zhang,Yuqing Yang,Ting Wu,Binjie Wang,Shichao Sun,Yang Xiao,Yiyuan Li,Fan Zhou,Steffi Chern,Yiwei Qin,Yan Ma,Jiadi Su,Yixiu Liu,Yuxiang Zheng,Shaoting Zhang,Dahua Lin,Yu Qiao,Pengfei Liu
発行日 2024-06-18 16:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク