要約
線形時不変(LTI)システムの安定化学習(LTS)の問題を研究する。制御のための政策勾配(PG)法は、初期安定化政策へのアクセスを前提としている。しかし、未知のシステムに対してそのようなポリシーを設計することは、制御における最も基本的な問題の一つであり、最適なポリシーを学習することと同じくらい難しいかもしれない。LTS問題に対する既存の研究は、アンビエント次元が2次関数的にスケールするため、大規模なデータを必要とする。我々は、まずシステムの左不安定部分空間を学習し、次に学習した不安定部分空間上で一連の割引線形2次レギュレータ(LQR)問題を解くという2段階のアプローチを提案する。両フェーズにおいて非漸近的な保証を提供し、不安定部分空間上で動作することによりサンプルの複雑さが減少することを示す。特に、不安定モードの数が状態次元よりもはるかに小さい場合、我々の解析により、不安定部分空間上でのLTSが安定化プロセスを大幅に高速化することが明らかになった。数値実験により、本アプローチによるサンプル複雑度の低減を裏づける。
要約(オリジナル)
We study the problem of learning to stabilize (LTS) a linear time-invariant (LTI) system. Policy gradient (PG) methods for control assume access to an initial stabilizing policy. However, designing such a policy for an unknown system is one of the most fundamental problems in control, and it may be as hard as learning the optimal policy itself. Existing work on the LTS problem requires large data as it scales quadratically with the ambient dimension. We propose a two-phase approach that first learns the left unstable subspace of the system and then solves a series of discounted linear quadratic regulator (LQR) problems on the learned unstable subspace, targeting to stabilize only the system’s unstable dynamics and reduce the effective dimension of the control space. We provide non-asymptotic guarantees for both phases and demonstrate that operating on the unstable subspace reduces sample complexity. In particular, when the number of unstable modes is much smaller than the state dimension, our analysis reveals that LTS on the unstable subspace substantially speeds up the stabilization process. Numerical experiments are provided to support this sample complexity reduction achieved by our approach.
arxiv情報
| 著者 | Leonardo F. Toso,Lintao Ye,James Anderson |
| 発行日 | 2025-05-02 15:34:36+00:00 |
| arxivサイト | arxiv_id(pdf) |