要約
パラメトリック偏微分方程式 (PDE) の最適な制御は、工学や科学の多くのアプリケーションで重要です。
近年、科学的機械学習の進歩により、パラメトリック偏微分方程式の制御に新たな境地が開かれました。
特に、深層強化学習 (DRL) は、さまざまなアプリケーションにおける高次元で複雑な制御問題を解決できる可能性を秘めています。
ほとんどの DRL メソッドは、ディープ ニューラル ネットワーク (DNN) 制御ポリシーに依存します。
ただし、多くの動的システムでは、DNN ベースの制御ポリシーは過度にパラメータ化される傾向があります。これは、大量のトレーニング データが必要であり、堅牢性が限られており、解釈可能性が欠けていることを意味します。
この研究では、辞書学習と微分可能な L$_0$ 正則化を活用して、パラメトリック偏微分方程式のスパースで堅牢な解釈可能な制御ポリシーを学習します。
当社のスパース ポリシー アーキテクチャは DRL 手法に依存せず、ポリシー最適化手順を変更することなく、さまざまなポリシー勾配およびアクター クリティカル DRL アルゴリズムで使用できます。
パラメトリックな倉本・シヴァシンスキー偏微分方程式と対流・拡散・反応偏微分方程式を制御するという困難なタスクに対するアプローチをテストします。
私たちの方法は、(1) ベースラインの DNN ベースの DRL ポリシーよりも優れたパフォーマンスを示し、(2) 学習された最適な制御則の解釈可能な方程式の導出を可能にし、(3) ポリシーを再トレーニングすることなく PDE の目に見えないパラメータに一般化できることを示します。
要約(オリジナル)
Optimal control of parametric partial differential equations (PDEs) is crucial in many applications in engineering and science. In recent years, the progress in scientific machine learning has opened up new frontiers for the control of parametric PDEs. In particular, deep reinforcement learning (DRL) has the potential to solve high-dimensional and complex control problems in a large variety of applications. Most DRL methods rely on deep neural network (DNN) control policies. However, for many dynamical systems, DNN-based control policies tend to be over-parametrized, which means they need large amounts of training data, show limited robustness, and lack interpretability. In this work, we leverage dictionary learning and differentiable L$_0$ regularization to learn sparse, robust, and interpretable control policies for parametric PDEs. Our sparse policy architecture is agnostic to the DRL method and can be used in different policy-gradient and actor-critic DRL algorithms without changing their policy-optimization procedure. We test our approach on the challenging tasks of controlling parametric Kuramoto-Sivashinsky and convection-diffusion-reaction PDEs. We show that our method (1) outperforms baseline DNN-based DRL policies, (2) allows for the derivation of interpretable equations of the learned optimal control laws, and (3) generalizes to unseen parameters of the PDE without retraining the policies.
arxiv情報
著者 | Nicolò Botteghi,Urban Fasel |
発行日 | 2024-03-22 15:06:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google