要約
二次コストを持つ未知の線形ガウス系を適応的に制御するためのリグレットの下限を確立します。
実験設計、推定理論、および特定の情報行列の摂動限界からのアイデアを組み合わせて、時間範囲 $T$ で $\sqrt{T}$ の大きさのスケーリングを示す後悔の下限を導き出します。
私たちの境界は、制御理論パラメーターの役割を正確に捉えており、制御が難しいシステムは制御を学ぶのも難しいことを示すことができます。
状態フィードバック システムにインスタンス化すると、以前の作業の次元依存性が回復しますが、システム コストやグラミアンなどのシステム理論定数によるスケーリングが改善されます。
さらに、結果を部分的に観測されたシステムのクラスに拡張し、可観測性構造が貧弱なシステムも制御を学習するのが難しいことを示します。
要約(オリジナル)
TWe establish regret lower bounds for adaptively controlling an unknown linear Gaussian system with quadratic costs. We combine ideas from experiment design, estimation theory and a perturbation bound of certain information matrices to derive regret lower bounds exhibiting scaling on the order of magnitude $\sqrt{T}$ in the time horizon $T$. Our bounds accurately capture the role of control-theoretic parameters and we are able to show that systems that are hard to control are also hard to learn to control; when instantiated to state feedback systems we recover the dimensional dependency of earlier work but with improved scaling with system-theoretic constants such as system costs and Gramians. Furthermore, we extend our results to a class of partially observed systems and demonstrate that systems with poor observability structure also are hard to learn to control.
arxiv情報
著者 | Ingvar Ziemann,Henrik Sandberg |
発行日 | 2023-03-14 17:47:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google