Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy

要約

実際の人間の予測精度は「群衆の知恵」効果に依存しており、将来の事象に関する予測は、個々の予測者の群衆に集約されることによって著しく改善される。大規模言語モデル(LLM)の予測能力に関する過去の研究では、個々の予測者としてのフロンティアLLMは、人間の群衆予測トーナメントの集計というゴールドスタンダードと比較してパフォーマンスが劣ることが示唆されている。研究1では、12人のLLMからなる群衆からなるLLMアンサンブル・アプローチを用いて、この研究を拡張する。我々は、31のバイナリー・クエスチョンについて集計されたLLMの予測を、3ヶ月間の予測トーナメントから得られた925人の人間予測家からなる群衆の予測と比較する。事前登録された主分析では、LLM群衆は単純な無情報ベンチマークを上回り、人間の群衆と統計的に差がないことが示された。探索的分析では、これら2つのアプローチは中程度の効果サイズの等価境界に関して等価であることがわかった。また、肯定的解像度と否定的解像度がほぼ均等であるにもかかわらず、モデルの平均予測値が50%を有意に上回り、acquiescence効果が観察された。さらに、研究2では、(GPT-4とクロード2の)LLM予測が、人間の認知出力を利用することで改善できるかどうかを検証する。その結果、両モデルの予測精度は、人間の予測の中央値を情報として利用することで恩恵を受け、17%から28%精度が向上することがわかった。我々の結果は、LLMが、予測集計というシンプルで実用的な方法によって、人間の群衆予測トーナメントに匹敵する予測精度を達成できることを示唆している。これはLLMの「群衆の知恵」効果を再現するものであり、社会全体の様々な用途への利用を可能にする。

要約(オリジナル)

Human forecasting accuracy in practice relies on the ‘wisdom of the crowd’ effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models’ forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the ‘wisdom of the crowd’ effect for LLMs, and opens up their use for a variety of applications throughout society.

arxiv情報

著者 Philipp Schoenegger,Indre Tuminauskaite,Peter S. Park,Philip E. Tetlock
発行日 2024-05-03 10:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク