Active Disruption Avoidance and Trajectory Design for Tokamak Ramp-downs with Neural Differential Equations and Reinforcement Learning

要約

トカマクは核融合エネルギーへの有望な道を提供するが、プラズマの破壊は大きな経済的リスクをもたらし、破壊回避の大幅な進歩の動機となっている。
この研究では、混乱に関連するいくつかの量の制限を回避しながら、プラズマ電流を安全に減少させるポリシーをトレーニングすることにより、この問題に対する強化学習アプローチを開発します。
ポリシートレーニング環境は、テストベッドとして使用する今後の燃焼プラズマシナリオである SPARC 一次基準放電 (PRD) のランプダウンのシミュレーションでトレーニングされた、物理学と機械学習のハイブリッド モデルです。
物理的な不確実性とモデルの不正確さに対処するために、ポリシー トレーニング中にランダム化された物理パラメーターを使用してシミュレーション環境が GPU 上で大規模に並列化されます。
トレーニングされたポリシーは、より忠実度の高いシミュレーターに正常に転送され、そこでユーザーが指定した破壊的な制限を回避しながら、プラズマのランプダウンに成功します。
また、制約条件付きポリシーを軌道設計アシスタントとして使用して、さまざまな物理条件やユーザー設定を処理するためのフィードフォワード軌道のライブラリを設計できることを実証することで、安全性の重要性という重要な問題にも取り組みます。
軌道のライブラリはオフラインでより解釈可能で検証可能であるため、このようなアプローチはプラズマトカマク燃焼という安全性が重要な状況で強化学習の機能を活用するための有望な道であると私たちは主張します。
最後に、進化的アルゴリズムを使用して物理的不確実性に対して堅牢なフィードフォワード軌道の最適化を実行することにより、トレーニング環境が他のフィードフォワード最適化アプローチにとってどのように有用なプラットフォームとなり得るかを示します。

要約(オリジナル)

The tokamak offers a promising path to fusion energy, but plasma disruptions pose a major economic risk, motivating considerable advances in disruption avoidance. This work develops a reinforcement learning approach to this problem by training a policy to safely ramp-down the plasma current while avoiding limits on a number of quantities correlated with disruptions. The policy training environment is a hybrid physics and machine learning model trained on simulations of the SPARC primary reference discharge (PRD) ramp-down, an upcoming burning plasma scenario which we use as a testbed. To address physics uncertainty and model inaccuracies, the simulation environment is massively parallelized on GPU with randomized physics parameters during policy training. The trained policy is then successfully transferred to a higher fidelity simulator where it successfully ramps down the plasma while avoiding user-specified disruptive limits. We also address the crucial issue of safety criticality by demonstrating that a constraint-conditioned policy can be used as a trajectory design assistant to design a library of feed-forward trajectories to handle different physics conditions and user settings. As a library of trajectories is more interpretable and verifiable offline, we argue such an approach is a promising path for leveraging the capabilities of reinforcement learning in the safety-critical context of burning plasma tokamaks. Finally, we demonstrate how the training environment can be a useful platform for other feed-forward optimization approaches by using an evolutionary algorithm to perform optimization of feed-forward trajectories that are robust to physics uncertainty

arxiv情報

著者 Allen M. Wang,Oswin So,Charles Dawson,Darren T. Garnier,Cristina Rea,Chuchu Fan
発行日 2024-02-14 18:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.plasm-ph パーマリンク