要約
タイトル:多変量確率予測の評価における信頼性の領域
要約:
– 多変量確率時系列予測は、proper scoring rulesを用いて評価されることが一般的である。
– Proper scoring rulesは、真の分布における期待値が最小になるような関数である。
– しかし、この性質だけでは、非漸近領域における識別力を保証することはできない。
– 本論文では、時系列予測の評価におけるproper scoring rulesの最初の体系的な有限サンプル研究を提供する。
– パワー分析を通じて、スコアリングルールの「信頼性領域」を特定し、予測の誤りを識別するために頼りにできる実用的な条件の集合を定義する。
– 綿密に設計された総合的な合成ベンチマークを用いて、真の分布と予測分布間のいくつかの主要な不一致を評価し、実世界のタスクに対する応用例である電力生産問題について、この研究の汎化性能を評価する。
– 結果は、文献で一般的に行われる多変量確率予測の評価において、重大な欠陥を明らかにする。
要約(オリジナル)
Multivariate probabilistic time series forecasts are commonly evaluated via proper scoring rules, i.e., functions that are minimal in expectation for the ground-truth distribution. However, this property is not sufficient to guarantee good discrimination in the non-asymptotic regime. In this paper, we provide the first systematic finite-sample study of proper scoring rules for time-series forecasting evaluation. Through a power analysis, we identify the ‘region of reliability’ of a scoring rule, i.e., the set of practical conditions where it can be relied on to identify forecasting errors. We carry out our analysis on a comprehensive synthetic benchmark, specifically designed to test several key discrepancies between ground-truth and forecast distributions, and we gauge the generalizability of our findings to real-world tasks with an application to an electricity production problem. Our results reveal critical shortcomings in the evaluation of multivariate probabilistic forecasts as commonly performed in the literature.
arxiv情報
著者 | Étienne Marcotte,Valentina Zantedeschi,Alexandre Drouin,Nicolas Chapados |
発行日 | 2023-04-19 17:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI