要約
このテキストでは、オンライン非確率制御と呼ばれる、動的システムおよび微分可能な強化学習の制御における新たなパラダイムの紹介を示します。
新しいアプローチは、オンライン凸最適化と凸緩和の技術を適用して、最適かつロバストな制御における古典的な設定に対する証明可能な保証を備えた新しい方法を取得します。
オンライン非確率制御と他のフレームワークの主な違いは、目的です。
最適制御、ロバスト制御、および確率ノイズを前提としたその他の制御手法では、オフラインの最適戦略と同等のパフォーマンスを発揮することが目標となります。
オンライン非確率制御では、コスト関数と想定される動的モデルからの摂動の両方が敵対者によって選択されます。
したがって、最適なポリシーは事前に定義されません。
むしろ、目標は、ベンチマーククラスの政策から後知恵で最良の政策に対する後悔を少なくすることである。
この目的は、アルゴリズム手法としてオンライン凸最適化の意思決定フレームワークを使用することを示唆しています。
結果として得られるメソッドは、反復数学的最適化アルゴリズムに基づいており、有限時間リグアランスと計算複雑性の保証を伴います。
要約(オリジナル)
This text presents an introduction to an emerging paradigm in control of dynamical systems and differentiable reinforcement learning called online nonstochastic control. The new approach applies techniques from online convex optimization and convex relaxations to obtain new methods with provable guarantees for classical settings in optimal and robust control. The primary distinction between online nonstochastic control and other frameworks is the objective. In optimal control, robust control, and other control methodologies that assume stochastic noise, the goal is to perform comparably to an offline optimal strategy. In online nonstochastic control, both the cost functions as well as the perturbations from the assumed dynamical model are chosen by an adversary. Thus the optimal policy is not defined a priori. Rather, the target is to attain low regret against the best policy in hindsight from a benchmark class of policies. This objective suggests the use of the decision making framework of online convex optimization as an algorithmic methodology. The resulting methods are based on iterative mathematical optimization algorithms, and are accompanied by finite-time regret and computational complexity guarantees.
arxiv情報
著者 | Elad Hazan,Karan Singh |
発行日 | 2023-05-29 16:46:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google