要約
流量制御は、幅広い用途でエネルギー効率を最大化する鍵となります。
しかし、従来の流量制御手法は、非線形システムや高次元データに対処する際に大きな課題に直面しており、現実的なエネルギー システムへの適用が制限されています。
この研究は、フロー制御のための深層強化学習 (DRL) 手法を進歩させ、特にグループ不変ネットワークと位置エンコーディングを DRL アーキテクチャに統合することに焦点を当てています。
私たちの手法は、マルチエージェント強化学習 (MARL) を活用して空間におけるポリシーの不変性を活用し、グループ不変ネットワークと組み合わせて局所対称性の不変性を確保します。
さらに、トランスフォーマー アーキテクチャからインスピレーションを得た位置エンコーディングが組み込まれており、エージェントに位置情報を提供し、厳密な不変性によるアクションの制約を軽減します。
提案された方法は、レイリー・ベナード対流のケーススタディを使用して検証されます。この場合の目標は、ヌッセルト数 Nu を最小化することです。
グループ不変ニューラル ネットワーク (GI-NN) は、ベース MARL と比較してより高速な収束を示し、より優れた平均ポリシー パフォーマンスを実現します。
GI-NN は、DRL トレーニング時間を半分に短縮するだけでなく、学習の再現性も著しく向上させます。
位置エンコーディングはこれらの結果をさらに強化し、最小 Nu を効果的に削減し、収束を安定させます。
興味深いことに、グループ不変ネットワークは学習速度の向上に特化し、位置エンコーディングは学習品質の向上に特化しています。
これらの結果は、目的や各制御問題の特性に応じて、適切な特徴表現方法を選択することが重要であることを示しています。
私たちは、この研究の結果が、不変でユニークな表現を備えた新しい DRL 手法にインスピレーションを与えるだけでなく、産業用途に有用な洞察を提供すると信じています。
要約(オリジナル)
Flow control is key to maximize energy efficiency in a wide range of applications. However, traditional flow-control methods face significant challenges in addressing non-linear systems and high-dimensional data, limiting their application in realistic energy systems. This study advances deep-reinforcement-learning (DRL) methods for flow control, particularly focusing on integrating group-invariant networks and positional encoding into DRL architectures. Our methods leverage multi-agent reinforcement learning (MARL) to exploit policy invariance in space, in combination with group-invariant networks to ensure local symmetry invariance. Additionally, a positional encoding inspired by the transformer architecture is incorporated to provide location information to the agents, mitigating action constraints from strict invariance. The proposed methods are verified using a case study of Rayleigh-B\’enard convection, where the goal is to minimize the Nusselt number Nu. The group-invariant neural networks (GI-NNs) show faster convergence compared to the base MARL, achieving better average policy performance. The GI-NNs not only cut DRL training time in half but also notably enhance learning reproducibility. Positional encoding further enhances these results, effectively reducing the minimum Nu and stabilizing convergence. Interestingly, group invariant networks specialize in improving learning speed and positional encoding specializes in improving learning quality. These results demonstrate that choosing a suitable feature-representation method according to the purpose as well as the characteristics of each control problem is essential. We believe that the results of this study will not only inspire novel DRL methods with invariant and unique representations, but also provide useful insights for industrial applications.
arxiv情報
著者 | Joongoo Jeon,Jean Rabault,Joel Vasanth,Francisco Alcántara-Ávila,Shilaj Baral,Ricardo Vinuesa |
発行日 | 2024-10-25 15:27:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google