Optimal Rates for Bandit Nonstochastic Control

要約

線形二次レギュレータ (LQR) および線形二次ガウス (LQG) 制御は、最適制御における基本的な問題であり、広範囲に研究されています。
我々は、半敵対的摂動と時間変化する敵対的バンディット損失関数を伴う LQR および LQG 問題を調査します。
~\cite{gradu2020non} の最もよく知られたサブリニア リグレス アルゴリズムには $T^{\frac{3}{4}}$ 時間軸依存性があり、その作成者は $\sqrt の厳しいレートが適切かどうかについて未解決の疑問を投げかけました。
{T}$は達成できました。
我々は肯定的に答え、既知システムと未知システムの両方に対して最適なリグレス (対数係数まで) を達成するバンディット LQR および LQG のアルゴリズムを提供します。
私たちの方法の中心的なコンポーネントは、独立した興味深いメモリを使用したバンディット凸最適化のための新しいスキームです。

要約(オリジナル)

Linear Quadratic Regulator (LQR) and Linear Quadratic Gaussian (LQG) control are foundational and extensively researched problems in optimal control. We investigate LQR and LQG problems with semi-adversarial perturbations and time-varying adversarial bandit loss functions. The best-known sublinear regret algorithm of~\cite{gradu2020non} has a $T^{\frac{3}{4}}$ time horizon dependence, and its authors posed an open question about whether a tight rate of $\sqrt{T}$ could be achieved. We answer in the affirmative, giving an algorithm for bandit LQR and LQG which attains optimal regret (up to logarithmic factors) for both known and unknown systems. A central component of our method is a new scheme for bandit convex optimization with memory, which is of independent interest.

arxiv情報

著者 Y. Jennifer Sun,Stephen Newman,Elad Hazan
発行日 2023-05-24 17:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク