要約
この研究では、パラメトリック偏微分方程式 (PDE) を最適に制御するための新しい汎用強化学習戦略を考案します。
このような問題は応用科学や工学で頻繁に発生し、制御変数や状態変数が高次元空間に分布している場合、またはさまざまなパラメーターに依存している場合に、かなりの複雑さを伴います。
反復最小化アルゴリズムまたは動的計画法のいずれかに依存する従来の数値手法は、信頼性は高いものの、多くの場合、計算上実行不可能になります。
実際、どちらの方法でも、パラメータのインスタンスごとに最適な制御問題を解決する必要がありますが、高次元の時間依存偏微分方程式やパラメトリック偏微分方程式を扱う場合、これは不可能です。
この論文では、従来の手法で示された限界を克服するための深層強化学習 (DRL) フレームワークである HypeRL を提案します。
HypeRL は、最適な制御ポリシーを直接近似することを目的としています。
具体的には、アクタークリティック DRL アプローチを採用して、パラメーターの変動範囲全体にわたって一般化できる最適なフィードバック制御戦略を学習します。
このような最適な制御則を効果的に学習するには、パラメータ情報を DRL ポリシーと値関数ニューラル ネットワーク (NN) にエンコードすることが不可欠です。
これを行うために、HypeRL は、ハイパーネットワークと呼ばれることが多い 2 つの追加 NN を使用して、値関数とポリシー NN の重みとバイアスを学習します。
我々は、PDE パラメータの知識とこの情報がどのようにエンコードされるか、つまりハイパーネットワークを介して行われることを示すことにより、2 つの PDE 制約付き最適制御ベンチマーク、つまり 1D 倉本・シヴァシンスキー方程式と 2D ナビエ・ストークス方程式で提案されたアプローチを検証します。
は、目に見えないシナリオに効果的に一般化できるパラメータ依存の制御ポリシーを学習し、そのようなポリシーのサンプル効率を向上させるために不可欠な要素です。
要約(オリジナル)
In this work, we devise a new, general-purpose reinforcement learning strategy for the optimal control of parametric partial differential equations (PDEs). Such problems frequently arise in applied sciences and engineering and entail a significant complexity when control and/or state variables are distributed in high-dimensional space or depend on varying parameters. Traditional numerical methods, relying on either iterative minimization algorithms or dynamic programming, while reliable, often become computationally infeasible. Indeed, in either way, the optimal control problem must be solved for each instance of the parameters, and this is out of reach when dealing with high-dimensional time-dependent and parametric PDEs. In this paper, we propose HypeRL, a deep reinforcement learning (DRL) framework to overcome the limitations shown by traditional methods. HypeRL aims at approximating the optimal control policy directly. Specifically, we employ an actor-critic DRL approach to learn an optimal feedback control strategy that can generalize across the range of variation of the parameters. To effectively learn such optimal control laws, encoding the parameter information into the DRL policy and value function neural networks (NNs) is essential. To do so, HypeRL uses two additional NNs, often called hypernetworks, to learn the weights and biases of the value function and the policy NNs. We validate the proposed approach on two PDE-constrained optimal control benchmarks, namely a 1D Kuramoto-Sivashinsky equation and a 2D Navier-Stokes equations, by showing that the knowledge of the PDE parameters and how this information is encoded, i.e., via a hypernetwork, is an essential ingredient for learning parameter-dependent control policies that can generalize effectively to unseen scenarios and for improving the sample efficiency of such policies.
arxiv情報
著者 | Nicolò Botteghi,Stefania Fresca,Mengwu Guo,Andrea Manzoni |
発行日 | 2025-01-08 14:38:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google