Active Learning for Control-Oriented Identification of Nonlinear Systems

要約

モデルベースの強化学習は、未知のシステムを制御するための効果的なアプローチです。
これは、制御コミュニティによく知られている長年のパイプラインに基づいています。このパイプラインでは、環境上で実験を実行してデータセットを収集し、結果のデータセットを使用してシステムのモデルを特定し、最後に特定されたモデルを使用して制御合成を実行します。
システムとの対話にはコストと時間がかかる場合があるため、最小限の実験で効果的な制御指向のモデルを開発するには、ターゲットを絞った探索が不可欠です。
この課題に動機付けられて、最近の研究では、モデルベースの強化学習における最適な探索の問題に対して、有限サンプル データ要件とサンプル効率的なアルゴリズムを研究し始めています。
ただし、既存の理論とアルゴリズムは、パラメーターが線形であるモデル クラスに限定されています。
私たちの研究では、代わりに、非線形パラメーター依存関係を持つモデルに焦点を当て、非線形力学の一般的なクラスに適した能動学習アルゴリズムの最初の有限サンプル分析を提示します。
特定の設定では、アルゴリズムの過剰制御コストは対数係数までの最適なレートを達成します。
シミュレーションでアプローチを検証し、非線形システムを制御するためのアクティブな制御指向の探索の利点を示します。

要約(オリジナル)

Model-based reinforcement learning is an effective approach for controlling an unknown system. It is based on a longstanding pipeline familiar to the control community in which one performs experiments on the environment to collect a dataset, uses the resulting dataset to identify a model of the system, and finally performs control synthesis using the identified model. As interacting with the system may be costly and time consuming, targeted exploration is crucial for developing an effective control-oriented model with minimal experimentation. Motivated by this challenge, recent work has begun to study finite sample data requirements and sample efficient algorithms for the problem of optimal exploration in model-based reinforcement learning. However, existing theory and algorithms are limited to model classes which are linear in the parameters. Our work instead focuses on models with nonlinear parameter dependencies, and presents the first finite sample analysis of an active learning algorithm suitable for a general class of nonlinear dynamics. In certain settings, the excess control cost of our algorithm achieves the optimal rate, up to logarithmic factors. We validate our approach in simulation, showcasing the advantage of active, control-oriented exploration for controlling nonlinear systems.

arxiv情報

著者 Bruce D. Lee,Ingvar Ziemann,George J. Pappas,Nikolai Matni
発行日 2024-08-13 16:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク