Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs

要約

このホワイト ペーパーの目的は、偏微分方程式 (PDE) によって支配される動的システムのフィードバック制御に強化学習 (RL) を使用する場合に、動的モデルを使用する利点を強調することです。
RL に見られる計り知れない可能性と複雑なエンジニアリング システムへの適用性との間のギャップを埋めるための主な課題は、トレーニング データに関する膨大な要件と、パフォーマンスの保証の欠如です。
作動を伴う畳み込み LSTM の形式でデータ駆動型の代理モデルを使用して、最初の問題の解決策を提示します。
RLエージェントのトレーニングと並行して作動モデルを学習すると、実際のシステムからサンプリングされる必要なデータの総量が大幅に削減されることを示しています。
さらに、モデルを繰り返し更新することが、RL トレーニングのバイアスを回避するために非常に重要であることを示します。
詳細なアブレーション研究により、モデリング プロセスの最も重要な要素が明らかになりました。
カオスな倉本・シヴァシンスキー方程式を使用して、調査結果を実証します。

要約(オリジナル)

The goal of this paper is to make a strong point for the usage of dynamical models when using reinforcement learning (RL) for feedback control of dynamical systems governed by partial differential equations (PDEs). To breach the gap between the immense promises we see in RL and the applicability in complex engineering systems, the main challenges are the massive requirements in terms of the training data, as well as the lack of performance guarantees. We present a solution for the first issue using a data-driven surrogate model in the form of a convolutional LSTM with actuation. We demonstrate that learning an actuated model in parallel to training the RL agent significantly reduces the total amount of required data sampled from the real system. Furthermore, we show that iteratively updating the model is of major importance to avoid biases in the RL training. Detailed ablation studies reveal the most important ingredients of the modeling process. We use the chaotic Kuramoto-Sivashinsky equation do demonstarte our findings.

arxiv情報

著者 Stefan Werner,Sebastian Peitz
発行日 2023-02-14 16:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク