要約
私たちは、16 の最先端の大規模言語モデル (LLM) に、2030 年までに汎用人工知能 (AGI) が出現する可能性を推定するタスクを課しました。これらの予測の品質を評価するために、自動ピアレビュー プロセス (LLM-PR) を実装しました。
)。
LLM の推定値は 3% (Reka-Core) から 47.6% (GPT-4o) まで幅広く、中央値は 12.5% でした。
これらの推定値は、2027 年までに AGI が発生する可能性が 10% になると予測した最近の専門家調査とほぼ一致しており、複雑で投機的なシナリオの予測における LLM の関連性が強調されています。
LLM-PR プロセスは、高いクラス内相関係数 (ICC = 0.79) によって証明される強力な信頼性を実証し、モデル全体でのスコアリングの顕著な一貫性を反映しています。
モデルの中で、Pplx-70b-online が最高のパフォーマンスを示しましたが、Gemini-1.5-pro-api は最低ランクでした。
LMSYS Chatbot Arena などの外部ベンチマークとの相互比較により、LLM ランキングがさまざまな評価方法にわたって一貫していることが明らかになり、既存のベンチマークが AGI 予測に関連するスキルの一部をカプセル化していない可能性があることが示唆されました。
さらに、外部ベンチマークに基づく重み付けスキームの使用を検討し、LLM の予測と人間の専門家の予測の調整を最適化しました。
この分析は、AGI 関連タスクのパフォーマンスの違いを強調するように設計された新しい「AGI ベンチマーク」の開発につながりました。
私たちの調査結果は、投機的で学際的な予測タスクにおける LLM の能力についての洞察を提供し、複雑で不確実な現実世界のシナリオにおける AI パフォーマンスを評価するための革新的な評価フレームワークの必要性が高まっていることを強調しています。
要約(オリジナル)
We tasked 16 state-of-the-art large language models (LLMs) with estimating the likelihood of Artificial General Intelligence (AGI) emerging by 2030. To assess the quality of these forecasts, we implemented an automated peer review process (LLM-PR). The LLMs’ estimates varied widely, ranging from 3% (Reka- Core) to 47.6% (GPT-4o), with a median of 12.5%. These estimates closely align with a recent expert survey that projected a 10% likelihood of AGI by 2027, underscoring the relevance of LLMs in forecasting complex, speculative scenarios. The LLM-PR process demonstrated strong reliability, evidenced by a high Intraclass Correlation Coefficient (ICC = 0.79), reflecting notable consistency in scoring across the models. Among the models, Pplx-70b-online emerged as the top performer, while Gemini-1.5-pro-api ranked the lowest. A cross-comparison with external benchmarks, such as LMSYS Chatbot Arena, revealed that LLM rankings remained consistent across different evaluation methods, suggesting that existing benchmarks may not encapsulate some of the skills relevant for AGI prediction. We further explored the use of weighting schemes based on external benchmarks, optimizing the alignment of LLMs’ predictions with human expert forecasts. This analysis led to the development of a new, ‘AGI benchmark’ designed to highlight performance differences in AGI-related tasks. Our findings offer insights into LLMs’ capabilities in speculative, interdisciplinary forecasting tasks and emphasize the growing need for innovative evaluation frameworks for assessing AI performance in complex, uncertain real-world scenarios.
arxiv情報
著者 | Fabrizio Davide,Pietro Torre,Andrea Gaggioli |
発行日 | 2024-12-12 15:52:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google