Multi-agent reinforcement learning for the control of three-dimensional Rayleigh-Bénard convection

要約

深層強化学習 (DRL) は、フロー制御に関連する数多くのユースケースに応用されています。
DRL の変形であるマルチエージェント RL (MARL) は、局所性と並進不変性を示すフローの制御において、シングルエージェント RL よりも効果的であることが示されています。
我々は、MARL ベースの 3 次元レイリーベナード対流 (RBC) 制御の実装を初めて紹介します。
制御は、複数の制御セグメントに分割され、それぞれが独立したエージェントとして動作する底壁に沿った温度分布を変更することで実行されます。
RBC の 2 つの体制は、レイリー数 $\mathrm{Ra}=500$ と $750$ で考慮されます。
学習された制御ポリシーの評価により、$\mathrm{Ra}=500$ および $750$ で、対流強度がそれぞれ $23.5\%$ および $8.7\%$ 減少することが明らかになりました。
MARL コントローラーは、不規則な形状の対流パターンを、比較的安定した状態の流れに似た、対流が低い規則的な真っ直ぐなロールに変換します。
$\mathrm{Ra}$ の両方で比例制御との比較を行い、MARL が比例制御よりも優れたパフォーマンスを発揮できることを示します。
学習された制御戦略は複雑で、セグメントごとに異なる非線形のアクチュエータ遅延と作動の大きさを特徴としています。
また、トレーニングに使用したものよりも大きなドメインで評価を成功させ、MARL の不変特性により学習されたポリシーの直接転送が可能であることを示しています。

要約(オリジナル)

Deep reinforcement learning (DRL) has found application in numerous use-cases pertaining to flow control. Multi-agent RL (MARL), a variant of DRL, has shown to be more effective than single-agent RL in controlling flows exhibiting locality and translational invariance. We present, for the first time, an implementation of MARL-based control of three-dimensional Rayleigh-B\’enard convection (RBC). Control is executed by modifying the temperature distribution along the bottom wall divided into multiple control segments, each of which acts as an independent agent. Two regimes of RBC are considered at Rayleigh numbers $\mathrm{Ra}=500$ and $750$. Evaluation of the learned control policy reveals a reduction in convection intensity by $23.5\%$ and $8.7\%$ at $\mathrm{Ra}=500$ and $750$, respectively. The MARL controller converts irregularly shaped convective patterns to regular straight rolls with lower convection that resemble flow in a relatively more stable regime. We draw comparisons with proportional control at both $\mathrm{Ra}$ and show that MARL is able to outperform the proportional controller. The learned control strategy is complex, featuring different non-linear segment-wise actuator delays and actuation magnitudes. We also perform successful evaluations on a larger domain than used for training, demonstrating that the invariant property of MARL allows direct transfer of the learnt policy.

arxiv情報

著者 Joel Vasanth,Jean Rabault,Francisco Alcántara-Ávila,Mikael Mortensen,Ricardo Vinuesa
発行日 2024-07-31 12:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.flu-dyn パーマリンク