Comparison of tree-based ensemble algorithms for merging satellite and earth-observed precipitation data at the daily time scale


衛星降水観測データと地上観測データを統合することは、広い地域を同時に高密度にカバーし、純粋な衛星降水観測データよりも精度の高い降水データセットを得るために、しばしば必要とされます。機械学習や統計学習による回帰アルゴリズムは、このような取り組みで定期的に利用されている。同時に、高精度かつ低計算コストで回帰問題を解くために、ツリーベースのアンサンブルアルゴリズムが様々な分野で採用されている。しかし、米国大陸の衛星降水量プロダクトを日時スケールで補正するために、どのツリーベースアンサンブルアルゴリズムを選択すべきかという情報は、文献から欠落している。本研究では、この方法論的ギャップを埋めるべく、3つのアルゴリズム、特にランダムフォレスト、gradient boosting machines(gbm)、extreme gradient boosting(XGBoost)の間で大規模な比較を実施した。PERSIANN(人工ニューラルネットワークを用いたリモートセンシング情報からの降水量推定)とIMERG(GPMのための統合多座標検索)のグリッドデータセットの日データを使用しました。また、Global Historical Climatology Network daily (GHCNd)データベースの地球観測降水量データも使用した。実験では、米国本土全域を対象とし、さらにベンチマークを目的とした線形回帰アルゴリズムの適用も行いました。その結果、XGBoostは、比較した中で最もパフォーマンスの高いツリーベースのアンサンブルアルゴリズムであることが示唆された…


Merging satellite products and ground-based measurements is often required for obtaining precipitation datasets that simultaneously cover large regions with high density and are more accurate than pure satellite precipitation products. Machine and statistical learning regression algorithms are regularly utilized in this endeavour. At the same time, tree-based ensemble algorithms are adopted in various fields for solving regression problems with high accuracy and low computational cost. Still, information on which tree-based ensemble algorithm to select for correcting satellite precipitation products for the contiguous United States (US) at the daily time scale is missing from the literature. In this study, we worked towards filling this methodological gap by conducting an extensive comparison between three algorithms of the category of interest, specifically between random forests, gradient boosting machines (gbm) and extreme gradient boosting (XGBoost). We used daily data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and the IMERG (Integrated Multi-satellitE Retrievals for GPM) gridded datasets. We also used earth-observed precipitation data from the Global Historical Climatology Network daily (GHCNd) database. The experiments referred to the entire contiguous US and additionally included the application of the linear regression algorithm for benchmarking purposes. The results suggest that XGBoost is the best-performing tree-based ensemble algorithm among those compared…


著者 Georgia Papacharalampous,Hristos Tyralis,Anastasios Doulamis,Nikolaos Doulamis
発行日 2023-03-03 16:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME パーマリンク