Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications

要約

深層強化学習と数値フロー制御問題の結合は最近かなりの注目を集めており、画期的な結果が得られ、この分野に新たな展望が開かれています。
流体力学ソルバーの計算コストは​​通常​​高いため、学習プロセス中に並列環境を使用することは、妥当な時間内で効率的な制御を達成するために不可欠な要素となります。
しかし、フロー制御に関する深層強化学習の文献のほとんどは、ポリシーに基づくアルゴリズムに依存しており、大規模な並列遷移コレクションが理論的な仮定を破り、次善の制御モデルにつながる可能性があります。
この問題を克服するために、リターン ブートストラップ ステップによって終了する部分軌跡バッファーに依存する並列処理パターンを提案します。これにより、更新のオンポリシーを維持しながら並列環境を柔軟に使用できるようになります。
このアプローチは、文献による CPU 集中型の連続フロー制御問題で説明されています。

要約(オリジナル)

The coupling of deep reinforcement learning to numerical flow control problems has recently received a considerable attention, leading to groundbreaking results and opening new perspectives for the domain. Due to the usually high computational cost of fluid dynamics solvers, the use of parallel environments during the learning process represents an essential ingredient to attain efficient control in a reasonable time. Yet, most of the deep reinforcement learning literature for flow control relies on on-policy algorithms, for which the massively parallel transition collection may break theoretical assumptions and lead to suboptimal control models. To overcome this issue, we propose a parallelism pattern relying on partial-trajectory buffers terminated by a return bootstrapping step, allowing a flexible use of parallel environments while preserving the on-policiness of the updates. This approach is illustrated on a CPU-intensive continuous flow control problem from the literature.

arxiv情報

著者 J. Viquerat,E. Hachem
発行日 2023-07-13 12:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.data-an パーマリンク