要約
多変量の確率的時系列予測は、通常、適切なスコアリング ルール、つまり、グラウンド トゥルース分布の予想が最小限に抑えられる関数を介して評価されます。
ただし、この特性は、非漸近領域での良好な識別を保証するには十分ではありません。
この論文では、時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供します。
検出力分析を通じて、スコアリング ルールの「信頼性の領域」、つまり、予測エラーを特定するために信頼できる一連の実際的な条件を特定します。
私たちは包括的な合成ベンチマークで分析を実行します。このベンチマークは、特にグラウンドトゥルース分布と予測分布の間のいくつかの重要な不一致をテストするように設計されており、電力生産の問題に適用して、現実世界のタスクに対する発見の一般化可能性を評価します。
私たちの結果は、文献で一般的に行われている多変量確率的予測の評価における重大な欠点を明らかにしました。
要約(オリジナル)
Multivariate probabilistic time series forecasts are commonly evaluated via proper scoring rules, i.e., functions that are minimal in expectation for the ground-truth distribution. However, this property is not sufficient to guarantee good discrimination in the non-asymptotic regime. In this paper, we provide the first systematic finite-sample study of proper scoring rules for time-series forecasting evaluation. Through a power analysis, we identify the ‘region of reliability’ of a scoring rule, i.e., the set of practical conditions where it can be relied on to identify forecasting errors. We carry out our analysis on a comprehensive synthetic benchmark, specifically designed to test several key discrepancies between ground-truth and forecast distributions, and we gauge the generalizability of our findings to real-world tasks with an application to an electricity production problem. Our results reveal critical shortcomings in the evaluation of multivariate probabilistic forecasts as commonly performed in the literature.
arxiv情報
著者 | Étienne Marcotte,Valentina Zantedeschi,Alexandre Drouin,Nicolas Chapados |
発行日 | 2023-06-06 15:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google