要約
我々は、制御環境の難易度に比例した政策後悔を持つアルゴリズムを得ることを目的として、非確率的制御(NSC)の問題に取り組む。すなわち、Follow The Regularized Leader (FTRL)フレームワークを、実際の目撃コストに比例する正則化器を用いることにより、動的システムに適応させる。主な課題は、提案する適応的正則化器を、オンライン決定の効果を結合し、後悔を束縛するための新しいツールを必要とする状態、あるいは等価的にメモリの存在下で使用することから生じる。NSCとFTRLの統合のための新しい解析技術により、我々は、コストの軌跡が小さな勾配を持つ場合に縮小し、最悪の場合でもサブ線形を維持する、サブ線形データ適応的政策後悔境界を持つ新しい外乱アクション制御器(DAC)を得る。
要約(オリジナル)
We tackle the problem of Non-stochastic Control (NSC) with the aim of obtaining algorithms whose policy regret is proportional to the difficulty of the controlled environment. Namely, we tailor the Follow The Regularized Leader (FTRL) framework to dynamical systems by using regularizers that are proportional to the actual witnessed costs. The main challenge arises from using the proposed adaptive regularizers in the presence of a state, or equivalently, a memory, which couples the effect of the online decisions and requires new tools for bounding the regret. Via new analysis techniques for NSC and FTRL integration, we obtain novel disturbance action controllers (DAC) with sub-linear data adaptive policy regret bounds that shrink when the trajectory of costs has small gradients, while staying sub-linear even in the worst case.
arxiv情報
著者 | Naram Mhaisen,George Iosifidis |
発行日 | 2023-12-04 14:02:54+00:00 |
arxivサイト | arxiv_id(pdf) |