要約
私たちは、2030年までに出現する人工的な一般情報(AGI)の可能性を推定するために、16の最先端の大手言語モデル(LLMS)に任命しました。これらの予測の品質を評価するために、自動ピアレビュープロセス(LLM-PR)を実装しました。
LLMSの推定値は大きく異なり、3%(Reka-Core)から47.6%(GPT-4O)の範囲で、中央値は12.5%でした。
これらの推定値は、2027年までにAGIの10%の可能性を予測した最近の専門家調査と密接に一致し、複雑で投機的なシナリオを予測するLLMの関連性を強調しています。
LLM-PRプロセスは、高地内の相関係数(ICC = 0.79)によって証明される強い信頼性を実証し、モデル全体のスコアリングの顕著な一貫性を反映しています。
モデルの中で、PPLX-70B-Onlineがトップパフォーマーとして登場し、Gemini-1.5-Pro-APIが最も低いランクを上げました。
LMSYS Chatbot Arenaなどの外部ベンチマークとの相互比較は、LLMランキングが異なる評価方法で一貫していることを明らかにし、既存のベンチマークがAGI予測に関連するスキルの一部をカプセル化しない可能性があることを示唆しています。
さらに、外部ベンチマークに基づいて重み付けスキームの使用を調査し、LLMの予測と人間の専門家予測との整合を最適化しました。
この分析により、AGI関連のタスクのパフォーマンスの違いを強調するように設計された新しい「AGIベンチマーク」が開発されました。
私たちの調査結果は、推測的で学際的な予測タスクにおけるLLMSの機能に関する洞察を提供し、複雑で不確実な現実世界のシナリオでAIパフォーマンスを評価するための革新的な評価フレームワークの必要性の高まりを強調しています。
要約(オリジナル)
We tasked 16 state-of-the-art large language models (LLMs) with estimating the likelihood of Artificial General Intelligence (AGI) emerging by 2030. To assess the quality of these forecasts, we implemented an automated peer review process (LLM-PR). The LLMs’ estimates varied widely, ranging from 3% (Reka- Core) to 47.6% (GPT-4o), with a median of 12.5%. These estimates closely align with a recent expert survey that projected a 10% likelihood of AGI by 2027, underscoring the relevance of LLMs in forecasting complex, speculative scenarios. The LLM-PR process demonstrated strong reliability, evidenced by a high Intraclass Correlation Coefficient (ICC = 0.79), reflecting notable consistency in scoring across the models. Among the models, Pplx-70b-online emerged as the top performer, while Gemini-1.5-pro-api ranked the lowest. A cross-comparison with external benchmarks, such as LMSYS Chatbot Arena, revealed that LLM rankings remained consistent across different evaluation methods, suggesting that existing benchmarks may not encapsulate some of the skills relevant for AGI prediction. We further explored the use of weighting schemes based on external benchmarks, optimizing the alignment of LLMs’ predictions with human expert forecasts. This analysis led to the development of a new, ‘AGI benchmark’ designed to highlight performance differences in AGI-related tasks. Our findings offer insights into LLMs’ capabilities in speculative, interdisciplinary forecasting tasks and emphasize the growing need for innovative evaluation frameworks for assessing AI performance in complex, uncertain real-world scenarios.
arxiv情報
著者 | Fabrizio Davide,Pietro Torre,Leonardo Ercolani,Andrea Gaggioli |
発行日 | 2025-04-22 13:56:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google