Merging satellite and gauge-measured precipitation using LightGBM with an emphasis on extreme quantiles

要約

実際の降水量を空間的・時間的に把握することは、水文学的モデリング・アプリケーションにおいて極めて重要であるが、雨量計ステーションによる空間的なカバー範囲は、経済的な制約から限られている。グリッド化された衛星降水データセットは、実際の降水量を推定するための代替オプションを提供する。降水量の推定を改善するために、機械学習が雨量計ベースの測定値とグリッド化された衛星降水量プロダクトを統合するために適用される。この文脈において、観測された降水量は従属変数の役割を果たし、衛星データは予測変数の役割を果たす。ランダムフォレストは、関連するアプリケーションにおいて支配的な機械学習アルゴリズムである。これらの空間予測の設定では、従属変数の点予測(主に条件分布の平均値または中央値)が発行される。この原稿の目的は、空間補間設定における極端な分位に重点を置いた降水量の確率的予測の問題を解決することである。ここでは、Light Gradient Boosting Machine (LightGBM)を用いた降水量の確率的空間予測を提案する。LightGBMはブースティング・アルゴリズムであり、予測・予報コンペティションでの入賞作品によって脚光を浴びている。LightGBMを評価するために、われわれは、PERSIANNおよびGPM-IMERG衛星降水量データと米国連続地域における毎日の降水量測定値の結合を含む大規模なアプリケーションに貢献する。我々は、従属変数の確率分布の極値分位に着目し、極値分位における分位スコアの点で、LightGBMが分位回帰フォレスト(QRF、ランダムフォレストの一種)を上回る。我々の研究は、機械学習を用いた空間的設定における確率的予測の理解を提供する。

要約(オリジナル)

Knowing the actual precipitation in space and time is critical in hydrological modelling applications, yet the spatial coverage with rain gauge stations is limited due to economic constraints. Gridded satellite precipitation datasets offer an alternative option for estimating the actual precipitation by covering uniformly large areas, albeit related estimates are not accurate. To improve precipitation estimates, machine learning is applied to merge rain gauge-based measurements and gridded satellite precipitation products. In this context, observed precipitation plays the role of the dependent variable, while satellite data play the role of predictor variables. Random forests is the dominant machine learning algorithm in relevant applications. In those spatial predictions settings, point predictions (mostly the mean or the median of the conditional distribution) of the dependent variable are issued. The aim of the manuscript is to solve the problem of probabilistic prediction of precipitation with an emphasis on extreme quantiles in spatial interpolation settings. Here we propose, issuing probabilistic spatial predictions of precipitation using Light Gradient Boosting Machine (LightGBM). LightGBM is a boosting algorithm, highlighted by prize-winning entries in prediction and forecasting competitions. To assess LightGBM, we contribute a large-scale application that includes merging daily precipitation measurements in contiguous US with PERSIANN and GPM-IMERG satellite precipitation data. We focus on extreme quantiles of the probability distribution of the dependent variable, where LightGBM outperforms quantile regression forests (QRF, a variant of random forests) in terms of quantile score at extreme quantiles. Our study offers understanding of probabilistic predictions in spatial settings using machine learning.

arxiv情報

著者 Hristos Tyralis,Georgia Papacharalampous,Nikolaos Doulamis,Anastasios Doulamis
発行日 2023-08-03 15:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP パーマリンク