Optimal Exploration for Model-Based RL in Nonlinear Systems

要約

未知の非線形力学システムを制御する方法を学習することは、強化学習と制御理論における基本的な問題です。
一般的に適用されるアプローチは、まず環境を探索し (探索)、その正確なモデルを学習し (システム同定)、次にこの推定されたシステム上で最小のコストで最適なコントローラーを計算します (ポリシーの最適化)。
既存の研究では、システム~\citep{mania2020active}の均一に優れたモデルを学習することが可能であることが示されていますが、実際には、実際のシステムで低コストで優れたコントローラーを学習することを目指す場合、特定のシステムパラメータが
他のパラメータよりもはるかに重要であるため、そのようなパラメータを学習することに重点を置いて調査する必要があります。
この研究では、非線形動的システムの設定を検討し、そのような設定で、(a) どのパラメータが優れたコントローラの学習に最も関連するか、(b) 不確実性を最小限に抑えるためにどのように探索するのが最適であるかを正式に定量化しようとします。
そのようなパラメータで。
線形システムの最近の研究~\citep{wagenmaker2021task} に触発されて、非線形システムのコントローラー損失を最小限に抑えることが、特定のタスク依存のメトリクスでシステム パラメーターを推定することになることを示します。
これを動機として、システムを効率的に探索してこのメ​​トリクスの不確実性を低減できるアルゴリズムを開発し、私たちのアプローチがインスタンス最適に近い速度でコントローラーを学習することを示す下限を証明します。
私たちのアルゴリズムは、ポリシーの最適化から任意のシステムでの最適な実験設計への一般的な還元に依存しており、独立して興味深い可能性があります。
最後に、現実的な非線形ロボット システムにおける私たちの方法の有効性を実証する実験で終わります。

要約(オリジナル)

Learning to control unknown nonlinear dynamical systems is a fundamental problem in reinforcement learning and control theory. A commonly applied approach is to first explore the environment (exploration), learn an accurate model of it (system identification), and then compute an optimal controller with the minimum cost on this estimated system (policy optimization). While existing work has shown that it is possible to learn a uniformly good model of the system~\citep{mania2020active}, in practice, if we aim to learn a good controller with a low cost on the actual system, certain system parameters may be significantly more critical than others, and we therefore ought to focus our exploration on learning such parameters. In this work, we consider the setting of nonlinear dynamical systems and seek to formally quantify, in such settings, (a) which parameters are most relevant to learning a good controller, and (b) how we can best explore so as to minimize uncertainty in such parameters. Inspired by recent work in linear systems~\citep{wagenmaker2021task}, we show that minimizing the controller loss in nonlinear systems translates to estimating the system parameters in a particular, task-dependent metric. Motivated by this, we develop an algorithm able to efficiently explore the system to reduce uncertainty in this metric, and prove a lower bound showing that our approach learns a controller at a near-instance-optimal rate. Our algorithm relies on a general reduction from policy optimization to optimal experiment design in arbitrary systems, and may be of independent interest. We conclude with experiments demonstrating the effectiveness of our method in realistic nonlinear robotic systems.

arxiv情報

著者 Andrew Wagenmaker,Guanya Shi,Kevin Jamieson
発行日 2023-06-15 15:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC, stat.ML パーマリンク