Reinforcement Learning with Partial Parametric Model Knowledge

要約

タイトル:部分的パラメーターモデル知識を用いた強化学習

要約:
– 強化学習(RL)手法を連続制御に適用し、環境に完全無知から完全知識までのギャップを埋めるための方法を提案する。
– Partial Knowledge Least Squares Policy Iteration(PLSPI)という方法を考案し、モデルフリーRLとモデルベース制御の両方から着想を得ている。
– 部分モデルからの不完全な情報を使用し、RLのデータ駆動型の適応性を保持し、最適なパフォーマンスを得る。
– 線形二次レギュレータがケーススタディとして用いられ、数値実験によって提案手法の効果と結果の利点が実証された。

要約(オリジナル)

We adapt reinforcement learning (RL) methods for continuous control to bridge the gap between complete ignorance and perfect knowledge of the environment. Our method, Partial Knowledge Least Squares Policy Iteration (PLSPI), takes inspiration from both model-free RL and model-based control. It uses incomplete information from a partial model and retains RL’s data-driven adaption towards optimal performance. The linear quadratic regulator provides a case study; numerical experiments demonstrate the effectiveness and resulting benefits of the proposed method.

arxiv情報

著者 Shuyuan Wang,Philip D. Loewen,Nathan P. Lawrence,Michael G. Forbes,R. Bhushan Gopaluni
発行日 2023-04-26 01:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク