要約
将来のイベントの予測は、情報に基づいた意思決定への重要な入力です。
機械学習(ML)システムには、予測を大規模に提供する可能性がありますが、標準化された予測質問セットでMLシステムの精度を評価するためのフレームワークはありません。
このギャップに対処するために、ForeCastBench:ML Systemsの精度を自動的に生成および定期的に更新された1,000の予測質問で評価する動的ベンチマークを紹介します。
データの漏れの可能性を回避するために、Forecastbenchは、提出時に既知の答えがない将来のイベントに関する質問のみで構成されています。
ベンチマークからの質問のランダムなサブセット($ n = 200 $)で、専門家(人間)の予測者、一般の人々、およびLLMからの予測を収集することにより、現在のMLシステムの機能を定量化します。
LLMは多くのベンチマークで超人間のパフォーマンスを達成していますが、ここではあまりパフォーマンスがありません。専門家の予測者は、トップパフォーマンスのLLM($ P $ -Value $ <0.001 $)よりも優れています。
www.forecastbench.orgのパブリックリーダーボードにシステムと人間のスコアを表示します。
要約(オリジナル)
Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the capabilities of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark ($N=200$). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM ($p$-value $<0.001$). We display system and human scores in a public leaderboard at www.forecastbench.org.
arxiv情報
| 著者 | Ezra Karger,Houtan Bastani,Chen Yueh-Han,Zachary Jacobs,Danny Halawi,Fred Zhang,Philip E. Tetlock |
| 発行日 | 2025-02-28 12:35:34+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google