OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

要約

このレポートでは、次のような質問を投げかけます。OlympicArena (オリンピックレベルの複数分野、超インテリジェント AI のマルチモーダルベンチマーク) によって測定された、これまでで最もインテリジェントな AI モデルは誰ですか?
特に、最近リリースされたモデルである Claude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4o に焦点を当てています。
私たちは初めて、オリンピック メダル テーブル アプローチを使用して、さまざまな分野にわたる総合的なパフォーマンスに基づいて AI モデルをランク付けすることを提案します。
実証結果は次のことを明らかにしています: (1) Claude-3.5-Sonnet は GPT-4o よりも非常に競争力のある全体的なパフォーマンスを示し、いくつかの科目 (つまり、物理学、化学、生物学) では GPT-4o を上回っています。
(2) Gemini-1.5-Pro と GPT-4V は、GPT-4o と Claude-3.5-Sonnet のすぐ後ろに連続してランクされていますが、それらの間には明らかなパフォーマンスの差があります。
(3) オープンソース コミュニティの AI モデルのパフォーマンスは、これらの独自モデルに比べて大幅に遅れています。
(4) このベンチマークにおけるこれらのモデルのパフォーマンスは満足できるものではなく、超知能を達成するまでにはまだ長い道のりがあることを示しています。
私たちは、このベンチマーク (https://github.com/GAIR-NLP/OlympicArena で入手可能) で最新の強力なモデルのパフォーマンスを継続的に追跡および評価することに引き続き取り組んでいます。

要約(オリジナル)

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).

arxiv情報

著者 Zhen Huang,Zengzhi Wang,Shijie Xia,Pengfei Liu
発行日 2024-06-26 15:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク