Understanding and Benchmarking Artificial Intelligence: OpenAI’s o3 Is Not AGI

要約

OpenAI の o3 は、知能を測定するために提案されたベンチマークである ARC-AGI で 87.5 % の高スコアを達成しました。
このため、大規模言語モデル (LLM) に基づくシステム、特に o3 が知能を実証し、汎用人工知能 (AGI) に向けた進歩を示すかどうかという疑問が生じます。
ARC-AGI の作成者である Fran\cois Chollet が行ったスキルとインテリジェンスの区別に基づいて、インテリジェンスについての新しい理解が導入されました。つまり、エージェントはよりインテリジェントになり、より効率的により多様な機能を達成できるようになります。
より多様な世界で、より少ない知識で目標を達成できます。
ARC-AGI ベンチマークの分析では、そのタスクが、事前定義された操作の組み合わせを大規模に試行することで解決できる、非常に特殊なタイプの問題を表していることがわかります。
この方法は o3 でも採用されており、コンピューティング能力を最大限に活用することで高いスコアを達成しています。
ただし、物理世界および人間の領域におけるほとんどの問題については、解決策を事前にテストすることができず、事前定義された操作は利用できません。
したがって、o3 のように事前定義された操作の大規模な試行は AGI の基礎にはなり得ません。代わりに、既存のスキルがなくてもさまざまな問題を確実に解決できる新しいアプローチが必要となります。
この発展をサポートするために、知性の新しいベンチマークが概説されています。これは、解決すべき未知のタスクのより多様性が高く、これにより、知性と AGI に向けた進歩の包括的な評価が可能になります。

要約(オリジナル)

OpenAI’s o3 achieves a high score of 87.5 % on ARC-AGI, a benchmark proposed to measure intelligence. This raises the question whether systems based on Large Language Models (LLMs), particularly o3, demonstrate intelligence and progress towards artificial general intelligence (AGI). Building on the distinction between skills and intelligence made by Fran\c{c}ois Chollet, the creator of ARC-AGI, a new understanding of intelligence is introduced: an agent is the more intelligent, the more efficiently it can achieve the more diverse goals in the more diverse worlds with the less knowledge. An analysis of the ARC-AGI benchmark shows that its tasks represent a very specific type of problem that can be solved by massive trialling of combinations of predefined operations. This method is also applied by o3, achieving its high score through the extensive use of computing power. However, for most problems in the physical world and in the human domain, solutions cannot be tested in advance and predefined operations are not available. Consequently, massive trialling of predefined operations, as o3 does, cannot be a basis for AGI – instead, new approaches are required that can reliably solve a wide variety of problems without existing skills. To support this development, a new benchmark for intelligence is outlined that covers a much higher diversity of unknown tasks to be solved, thus enabling a comprehensive assessment of intelligence and of progress towards AGI.

arxiv情報

著者 Rolf Pfister,Hansueli Jud
発行日 2025-01-13 16:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PF パーマリンク