Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction


数値天気予報 (NWP) におけるディープ ラーニング (DL) の急速な台頭により、従来の物理ベースの NWP と同等またはそれ以上のスキルで大気変数を予測するモデルが急増しました。
ただし、これらの主要な DL モデルの間では、使用されるトレーニング設定とアーキテクチャの両方に大きなばらつきがあります。
具体的には、最小限の変更を加えた SwinV2 トランスフォーマーを ERA5 データでトレーニングし、IFS と比較した場合に優れた予測スキルを達成できることがわかりました。
トレーニング パイプラインの主要な側面に関するいくつかのアブレーションを示し、さまざまな損失関数、モデルのサイズと深さ、およびそれらの効果を調査するための複数ステップの微調整を調査します。
また、典型的な ACC および RMSE を超えるメトリクスを使用してモデルのパフォーマンスを検査し、モデルのサイズに応じてパフォーマンスがどのようにスケールされるかを調査します。


The rapid rise of deep learning (DL) in numerical weather prediction (NWP) has led to a proliferation of models which forecast atmospheric variables with comparable or superior skill than traditional physics-based NWP. However, among these leading DL models, there is a wide variance in both the training settings and architecture used. Further, the lack of thorough ablation studies makes it hard to discern which components are most critical to success. In this work, we show that it is possible to attain high forecast skill even with relatively off-the-shelf architectures, simple training procedures, and moderate compute budgets. Specifically, we train a minimally modified SwinV2 transformer on ERA5 data, and find that it attains superior forecast skill when compared against IFS. We present some ablations on key aspects of the training pipeline, exploring different loss functions, model sizes and depths, and multi-step fine-tuning to investigate their effect. We also examine the model performance with metrics beyond the typical ACC and RMSE, and investigate how the performance scales with model size.


著者 Jared D. Willard,Peter Harrington,Shashank Subramanian,Ankur Mahesh,Travis A. O’Brien,William D. Collins
発行日 2024-04-30 15:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68T07, 86A10, cs.LG, I.2.6 パーマリンク