RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles

要約

機械学習は、データ同化を強化するための強力なツールになりました。
監督された学習は依然として標準的な方法ですが、Rehnection Learning(RL)は、モデルの予測と観測と動的にバランスをとることにより、データ同化の反復性に自然に適合する順次意思決定フレームワークを通じて独自の利点を提供します。
RL-Daunceを開発します。RL-Daunceは、3つの重要な側面を通じて物理的制約を伴うデータ同化を強化する新しいRLベースの方法です。
第一に、RL-Daunceは機械学習の計算効率を継承し、従来のデータ同化方法でアンサンブルメンバーをミラーリングするためにエージェントを独自に構成します。
第二に、RL-Daunceは、複数のアンサンブルメンバーを進めて、単純な平均状態の最適化を超えて移動することにより、不確実性の定量化を強調しています。
第三に、RL-Daunceのエージェントとしてのアンサンブルデザインは、同化プロセス中の物理的制約の施行を促進します。これは、状態の推定とその後の予測を改善するために重要です。
原始的な最適化戦略は、制約を強制するために開発されており、学習プロセス全体で制約の満足度を確保するために報酬機能を動的に罰します。
また、状態の可変境界は、RLアクション空間を制約することにより尊重されます。
一緒に、これらの機能は、効率を犠牲にすることなく物理的な一貫性を確保します。
RL-Daunceは、強く非ガウスの特徴と複数の物理的制約を特徴とする断続的な大気現象であるMadden-Julian振動に適用されます。
RL-Daunceは、標準のアンサンブルカルマンフィルター(ENKF)を上回ります。これは、物理的な制約の違反により壊滅的に失敗します。
特に、RL-Daunceは、特に断続的な信号の回復、極端なイベントのキャプチャ、不確実性の定量化において、制約されたENKFのパフォーマンスと一致します。

要約(オリジナル)

Machine learning has become a powerful tool for enhancing data assimilation. While supervised learning remains the standard method, reinforcement learning (RL) offers unique advantages through its sequential decision-making framework, which naturally fits the iterative nature of data assimilation by dynamically balancing model forecasts with observations. We develop RL-DAUNCE, a new RL-based method that enhances data assimilation with physical constraints through three key aspects. First, RL-DAUNCE inherits the computational efficiency of machine learning while it uniquely structures its agents to mirror ensemble members in conventional data assimilation methods. Second, RL-DAUNCE emphasizes uncertainty quantification by advancing multiple ensemble members, moving beyond simple mean-state optimization. Third, RL-DAUNCE’s ensemble-as-agents design facilitates the enforcement of physical constraints during the assimilation process, which is crucial to improving the state estimation and subsequent forecasting. A primal-dual optimization strategy is developed to enforce constraints, which dynamically penalizes the reward function to ensure constraint satisfaction throughout the learning process. Also, state variable bounds are respected by constraining the RL action space. Together, these features ensure physical consistency without sacrificing efficiency. RL-DAUNCE is applied to the Madden-Julian Oscillation, an intermittent atmospheric phenomenon characterized by strongly non-Gaussian features and multiple physical constraints. RL-DAUNCE outperforms the standard ensemble Kalman filter (EnKF), which fails catastrophically due to the violation of physical constraints. Notably, RL-DAUNCE matches the performance of constrained EnKF, particularly in recovering intermittent signals, capturing extreme events, and quantifying uncertainties, while requiring substantially less computational effort.

arxiv情報

著者 Pouria Behnoudfar,Nan Chen
発行日 2025-05-08 17:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math-ph, math.MP パーマリンク