AGI-Elo: How Far Are We From Mastering A Task?

要約

フィールドが人工的な一般情報(AGI)に向かって進むにつれて、総合的なパフォーマンスメトリックを超えた、より包括的で洞察に満ちた評価フレームワークが差し迫った必要性があります。
このペーパーでは、個々のテストケースの難易度と、ビジョン、言語、およびアクションドメイン全体のAIモデル(または人間)の能力を共同でモデル化する統一評価システムを紹介します。
モデルのみに焦点を当てた既存のメトリックとは異なり、私たちのアプローチは、モデルとタスクの間の競争的な相互作用を通じて、微調整された難易度の高い評価を可能にし、現実世界の課題と現在のモデルの間のコンピテンシーギャップの両方をキャプチャします。
個別のAGIドメイン全体で、複数の確立されたデータセットとモデルでの広範な実験を通じて、システムの一般化と堅牢性を検証します。
結果の評価分布は、タスクの難易度、モデルの進行、および完全なAGIタスクの習得を達成するための道に残っている顕著な課題に関する新しい視点と解釈可能な洞察を提供します。

要約(オリジナル)

As the field progresses toward Artificial General Intelligence (AGI), there is a pressing need for more comprehensive and insightful evaluation frameworks that go beyond aggregate performance metrics. This paper introduces a unified rating system that jointly models the difficulty of individual test cases and the competency of AI models (or humans) across vision, language, and action domains. Unlike existing metrics that focus solely on models, our approach allows for fine-grained, difficulty-aware evaluations through competitive interactions between models and tasks, capturing both the long-tail distribution of real-world challenges and the competency gap between current models and full task mastery. We validate the generalizability and robustness of our system through extensive experiments on multiple established datasets and models across distinct AGI domains. The resulting rating distributions offer novel perspectives and interpretable insights into task difficulty, model progression, and the outstanding challenges that remain on the path to achieving full AGI task mastery.

arxiv情報

著者 Shuo Sun,Yimin Zhao,Christina Dao Wen Lee,Jiawei Sun,Chengran Yuan,Zefan Huang,Dongen Li,Justin KW Yeoh,Alok Prakash,Thomas W. Malone,Marcelo H. Ang Jr
発行日 2025-05-19 08:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク