ReACT: Reinforcement Learning for Controller Parametrization using B-Spline Geometries

要約

産業用アプリケーションには、堅牢で高性能なコントローラーが不可欠です。
ただし、複雑な非線形システムのコントローラー パラメーターを導出するのは困難で時間がかかります。
コントローラーの自動パラメーター化を容易にするために、この研究では、N 次元 B スプライン ジオメトリ (BSG) を使用した深層強化学習 (DRL) を使用する新しいアプローチを紹介します。
私たちは、動作条件に依存する複雑な動作を持つシステムの一種であるパラメータ可変システムの制御に焦点を当てています。
このシステム クラスの場合、ゲイン スケジューリング制御構造は、よく知られた設計原則により、業界全体のアプリケーションで広く使用されています。
これらの制御構造に関する高価なコントローラーのパラメーター化タスクを容易にするために、DRL エージェントを導入します。
制御システムの観察に基づいて、エージェントはコントローラーのパラメーターをどのように適応させるかを自律的に決定します。
BSG を導入して、さまざまな動作条件に依存する可能性のあるコントローラー パラメーターをマッピングすることで、適応プロセスをより効率的にしています。
時系列データを前処理して固定長の特徴ベクトルを抽出するには、長短期記憶 (LSTM) ニューラル ネットワークを使用します。
さらに、この作業は、トレーニングとは異なる現実世界の環境に関連するアクターの正則化に貢献します。
したがって、切り捨て分位点批評家 (TQC) アルゴリズムのアクター ネットワークと批評家ネットワークにドロップアウト層の正規化を適用します。
私たちのアプローチの動作原理と有効性を示すために、パラメーター ルックアップ テーブルを使用した産業用制御構造のパラメーター化タスクに関して DRL エージェントをトレーニングし、評価します。

要約(オリジナル)

Robust and performant controllers are essential for industrial applications. However, deriving controller parameters for complex and nonlinear systems is challenging and time-consuming. To facilitate automatic controller parametrization, this work presents a novel approach using deep reinforcement learning (DRL) with N-dimensional B-spline geometries (BSGs). We focus on the control of parameter-variant systems, a class of systems with complex behavior which depends on the operating conditions. For this system class, gain-scheduling control structures are widely used in applications across industries due to well-known design principles. Facilitating the expensive controller parametrization task regarding these control structures, we deploy an DRL agent. Based on control system observations, the agent autonomously decides how to adapt the controller parameters. We make the adaptation process more efficient by introducing BSGs to map the controller parameters which may depend on numerous operating conditions. To preprocess time-series data and extract a fixed-length feature vector, we use a long short-term memory (LSTM) neural networks. Furthermore, this work contributes actor regularizations that are relevant to real-world environments which differ from training. Accordingly, we apply dropout layer normalization to the actor and critic networks of the truncated quantile critic (TQC) algorithm. To show our approach’s working principle and effectiveness, we train and evaluate the DRL agent on the parametrization task of an industrial control structure with parameter lookup tables.

arxiv情報

著者 Thomas Rudolf,Daniel Flögel,Tobias Schürmann,Simon Süß,Stefan Schwab,Sören Hohmann
発行日 2024-01-10 16:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク