要約
効果的な意思決定を促進するには、降水量データセットに不確実性の推定値を含める必要があります。
このような推定を行うために、機械学習による分位回帰が提案されています。
分布回帰には、断続性をモデル化する機能や、訓練データを超えて外挿する強力な機能など、分位回帰に比べて明確な利点があり、これは極端な降水量を予測するために重要です。
したがって、ここでは、特に衛星降水積を補正する空間予測タスクのために、降水データセットの作成における分布回帰の概念を導入します。
この概念に基づいて、空間予測だけでなく他の予測問題にも役立つ新しいアンサンブル学習方法を策定しました。
これらの手法は、位置、スケール、形状の一般化加算モデル (GAMLSS)、スプラインベースの GAMLSS、分布回帰フォレスト、およびそれらのアンサンブル (分位点回帰と等重み平均に基づくスタッキング) で推定された条件付きゼロ調整確率分布を利用します。
特定の問題に対して最も効果的な方法を特定するために、大規模な複数ソースの降水量データセットを使用したベンチマークと比較しました。
スタッキングは、分位損失関数を使用して評価した場合、ほとんどの分位レベルで個別の方法よりも優れていることが示されました。
さらに、メソッドの相対的なランキングはさまざまな分位レベルで異なりますが、スタッキングメソッド、および程度は低いですが平均コンバイナーは、時々極端に低いランクにランクされる個々のメソッドと比較して、さまざまな分位にわたるパフォーマンスのばらつきが小さいことを示しました。
全体として、タスク固有の複数の分布回帰アルゴリズムの組み合わせにより、安定性の点で大きな利点が得られる可能性があります。
要約(オリジナル)
To facilitate effective decision-making, precipitation datasets should include uncertainty estimates. Quantile regression with machine learning has been proposed for issuing such estimates. Distributional regression offers distinct advantages over quantile regression, including the ability to model intermittency as well as a stronger ability to extrapolate beyond the training data, which is critical for predicting extreme precipitation. Therefore, here, we introduce the concept of distributional regression in precipitation dataset creation, specifically for the spatial prediction task of correcting satellite precipitation products. Building upon this concept, we formulated new ensemble learning methods that can be valuable not only for spatial prediction but also for other prediction problems. These methods exploit conditional zero-adjusted probability distributions estimated with generalized additive models for location, scale and shape (GAMLSS), spline-based GAMLSS and distributional regression forests as well as their ensembles (stacking based on quantile regression and equal-weight averaging). To identify the most effective methods for our specific problem, we compared them to benchmarks using a large, multi-source precipitation dataset. Stacking was shown to be superior to individual methods at most quantile levels when evaluated with the quantile loss function. Moreover, while the relative ranking of the methods varied across different quantile levels, stacking methods, and to a lesser extent mean combiners, exhibited lower variance in their performance across different quantiles compared to individual methods that occasionally ranked extremely low. Overall, a task-specific combination of multiple distributional regression algorithms could yield significant benefits in terms of stability.
arxiv情報
著者 | Georgia Papacharalampous,Hristos Tyralis,Nikolaos Doulamis,Anastasios Doulamis |
発行日 | 2025-01-06 18:03:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google