ClimSim: An open large-scale dataset for training high-resolution physics emulators in hybrid multi-scale climate simulators

要約

現代の気候予測には、計算上の制約により適切な空間的および時間的解像度が不足しています。
その結果、嵐などの重要なプロセスが不正確かつ不正確に予測されます。
物理学と機械学習 (ML) を組み合わせたハイブリッド手法により、計算量を多く必要とする短時間の高解像度シミュレーションを ML エミュレーターにアウトソーシングすることで、ムーアの法則を回避できる、より忠実度の高い新世代の気候シミュレーターが導入されました。
ただし、このハイブリッド ML と物理シミュレーションのアプローチには、ドメイン固有の処理が必要であり、トレーニング データや関連する使いやすいワークフローが不足しているため、ML 専門家はアクセスできませんでした。
ハイブリッド ML 物理研究用に設計された史上最大のデータセットである ClimSim を紹介します。
これは、気候科学者と機械学習研究者のコンソーシアムによって開発された、マルチスケールの気候シミュレーションで構成されています。
これは、ホスト気候シミュレータのマクロスケールの物理状態に対する、ローカルにネストされた高解像度、高忠実度の物理学の影響を分離する、57 億ペアの多変量入力ベクトルと出力ベクトルで構成されています。
データセットは対象範囲がグローバルで、高いサンプリング頻度で複数年に及び、結果として得られるエミュレータが運用気候シミュレータへの下流結合と互換性があるように設計されています。
ML の課題とそのスコアリングを強調するために、さまざまな決定論的および確率的回帰ベースラインを実装しています。
データ (https://huggingface.co/datasets/LEAP/ClimSim_high-res) とコード (https://leap-stc.github.io/ClimSim) は、ハイブリッド ML 物理学と高精度の開発をサポートするためにオープンにリリースされています。
-科学と社会の利益のための忠実な気候シミュレーション。

要約(オリジナル)

Modern climate projections lack adequate spatial and temporal resolution due to computational constraints. A consequence is inaccurate and imprecise prediction of critical processes such as storms. Hybrid methods that combine physics with machine learning (ML) have introduced a new generation of higher fidelity climate simulators that can sidestep Moore’s Law by outsourcing compute-hungry, short, high-resolution simulations to ML emulators. However, this hybrid ML-physics simulation approach requires domain-specific treatment and has been inaccessible to ML experts because of lack of training data and relevant, easy-to-use workflows. We present ClimSim, the largest-ever dataset designed for hybrid ML-physics research. It comprises multi-scale climate simulations, developed by a consortium of climate scientists and ML researchers. It consists of 5.7 billion pairs of multivariate input and output vectors that isolate the influence of locally-nested, high-resolution, high-fidelity physics on a host climate simulator’s macro-scale physical state. The dataset is global in coverage, spans multiple years at high sampling frequency, and is designed such that resulting emulators are compatible with downstream coupling into operational climate simulators. We implement a range of deterministic and stochastic regression baselines to highlight the ML challenges and their scoring. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res) and code (https://leap-stc.github.io/ClimSim) are released openly to support the development of hybrid ML-physics and high-fidelity climate simulations for the benefit of science and society.

arxiv情報

著者 Sungduk Yu,Walter M. Hannah,Liran Peng,Mohamed Aziz Bhouri,Ritwik Gupta,Jerry Lin,Björn Lütjens,Justus C. Will,Tom Beucler,Bryce E. Harrop,Benjamin R. Hillman,Andrea M. Jenney,Savannah L. Ferretti,Nana Liu,Anima Anandkumar,Noah D. Brenowitz,Veronika Eyring,Pierre Gentine,Stephan Mandt,Jaideep Pathak,Carl Vondrick,Rose Yu,Laure Zanna,Ryan P. Abernathey,Fiaz Ahmed,David C. Bader,Pierre Baldi,Elizabeth A. Barnes,Gunnar Behrens,Christopher S. Bretherton,Julius J. M. Busecke,Peter M. Caldwell,Wayne Chuang,Yilun Han,Yu Huang,Fernando Iglesias-Suarez,Sanket Jantre,Karthik Kashinath,Marat Khairoutdinov,Thorsten Kurth,Nicholas J. Lutsko,Po-Lun Ma,Griffin Mooers,J. David Neelin,David A. Randall,Sara Shamekh,Akshay Subramaniam,Mark A. Taylor,Nathan M. Urban,Janni Yuval,Guang J. Zhang,Tian Zheng,Michael S. Pritchard
発行日 2023-06-16 15:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph パーマリンク