要約
予測は、テクノロジーや経済学など、多くのドメインで重要なタスクです。
ただし、既存の予測ベンチマークには、包括的な信頼評価がほとんどなく、限られた質問タイプに焦点を当てており、多くの場合、実際の人間の予測ニーズと一致しない人為的な質問で構成されています。
これらのギャップに対処するために、予測(将来の結果の推論と信頼評価)を紹介します。これは、モデルの予測能力とそれらに対する自信を評価するベンチマークです。
予測には、ブールの質問、時間枠の予測、および数量推定を含む多様な予測シナリオに及び、現実世界アプリケーションの予測精度と信頼キャリブレーションの両方の包括的な評価を可能にします。
要約(オリジナル)
Forecasting is an important task in many domains, such as technology and economics. However existing forecasting benchmarks largely lack comprehensive confidence assessment, focus on limited question types, and often consist of artificial questions that do not align with real-world human forecasting needs. To address these gaps, we introduce FOReCAst (Future Outcome Reasoning and Confidence Assessment), a benchmark that evaluates models’ ability to make predictions and their confidence in them. FOReCAst spans diverse forecasting scenarios involving Boolean questions, timeframe prediction, and quantity estimation, enabling a comprehensive evaluation of both prediction accuracy and confidence calibration for real-world applications.
arxiv情報
著者 | Zhangdie Yuan,Zifeng Ding,Andreas Vlachos |
発行日 | 2025-05-16 15:08:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google