ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities

要約

将来の出来事の予測は、情報に基づいた意思決定に不可欠な情報です。
機械学習 (ML) システムには大規模な予測を提供できる可能性がありますが、標準化された一連の予測質問に基づいて ML システムの精度を評価するためのフレームワークはありません。
このギャップに対処するために、ForecastBench を導入しました。これは、自動生成され定期的に更新される 1,000 個の予測質問のセットに基づいて ML システムの精度を評価する動的ベンチマークです。
データ漏洩の可能性を避けるため、ForecastBench は、送信時点では答えがわかっていない将来のイベントに関する質問のみで構成されています。
ベンチマーク ($N=200$) からのランダムな質問のサブセットについて、専門家 (人間) の予報担当者、一般の人々、LLM から予測を収集することにより、現在の ML システムの機能を定量化します。
LLM は多くのベンチマークで超人的なパフォーマンスを達成していますが、ここではあまりパフォーマンスが良くありません。専門の予測担当者がトップパフォーマンスの LLM を上回っています (p 値 $=0.01$)。
システムおよび人間のスコアは、www.forecastbench.org の公開リーダーボードに表示されます。

要約(オリジナル)

Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the capabilities of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark ($N=200$). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM (p-value $=0.01$). We display system and human scores in a public leaderboard at www.forecastbench.org.

arxiv情報

著者 Ezra Karger,Houtan Bastani,Chen Yueh-Han,Zachary Jacobs,Danny Halawi,Fred Zhang,Philip E. Tetlock
発行日 2024-11-05 12:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク