要約
実際の人間の予測精度は「群衆の知恵」効果に依存しており、個々の予測者の群衆を集約することで将来の出来事についての予測が大幅に向上します。
大規模言語モデル (LLM) の予測能力に関する過去の研究では、フロンティア LLM は個々の予測者として、人間の群衆予測トーナメントの総計のゴールドスタンダードと比較してパフォーマンスが劣っていることが示唆されています。
研究 1 では、12 個の LLM の群から構成される LLM アンサンブル アプローチを使用して、この研究を拡張します。
31 の二項質問について集計された LLM 予測を、3 か月の予測トーナメントで行われた 925 人の人間の予測者による予測と比較します。
事前に登録したメイン分析では、LLM 群衆が情報なしの単純なベンチマークを上回っており、統計的には人間の群衆と変わらないことが示されています。
探索的分析では、これら 2 つのアプローチが中程度の効果サイズの同等限界に関して同等であることがわかりました。
また、正と負の解像度がほぼ均等に分かれているにもかかわらず、平均モデル予測が 50% を大幅に上回っているという黙認効果も観察されています。
さらに、研究 2 では、人間の認知出力を利用することで (GPT-4 と Claude 2 の) LLM 予測を改善できるかどうかをテストします。
どちらのモデルの予測精度も、人間による予測の中央値を情報として公開することで恩恵を受け、精度が 17% から 28% 向上することがわかりました。ただし、これにより、単純に人間と機械の予測を平均するよりも予測の精度が低くなります。
私たちの結果は、LLM がシンプルで実際に適用可能な予測集計方法によって、人間の群衆予測トーナメントに匹敵する予測精度を達成できることを示唆しています。
これにより、LLM の「群衆の知恵」効果が再現され、社会全体のさまざまなアプリケーションでの使用が可能になります。
要約(オリジナル)
Human forecasting accuracy in practice relies on the ‘wisdom of the crowd’ effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models’ forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the ‘wisdom of the crowd’ effect for LLMs, and opens up their use for a variety of applications throughout society.
arxiv情報
著者 | Philipp Schoenegger,Indre Tuminauskaite,Peter S. Park,Philip E. Tetlock |
発行日 | 2024-03-06 18:44:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google