Regret Analysis: a control perspective

要約

オンライン学習とモデル参照適応制御には、興味深い交差点が数多くあります。
ただし、両者が異なる領域の 1 つは、アルゴリズムの分析方法と、「良い」アルゴリズムと「悪い」アルゴリズムを区別するためにどのような目的または指標が使用されるかです。
適応制御には、通常 2 つの目的があります。1) システムのすべての時間変化するパラメーター/状態に制限があることを証明すること、2) 適応制御システムと基準システムの間の瞬間誤差が時間の経過とともに (または少なくとも) ゼロに収束することを証明すること
コンパクトなセットです)。
オンライン学習の場合、アルゴリズムのパフォーマンスは、アルゴリズムが引き起こす後悔によって特徴付けられることがよくあります。
リグレットは、オンライン アルゴリズムによる時間の経過に伴う累積損失 (コスト) から、後から考えると単一の最適な固定パラメーターの選択による累積損失 (コスト) を差し引いたものとして定義されます。
2 つの研究分野のもう 1 つの大きな違いは、その結果を得るために行われる仮定に関してです。
適応制御は、制御問題の入出力特性について仮定を立て、固定誤差モデルまたは最適化タスクの解を導き出します。
オンライン学習の文献では、結果は損失関数 (つまり、凸) のクラスに対して導出されますが、すべての時間変化するパラメーターが制限されているとアプリオリに仮定されています。これは、多くの最適化タスクにとって非現実的ではありませんが、制御アプリケーションではスターターではありません。
この研究では、凸関数の勾配降下法のリグレスベースの分析とストリーミング回帰問題の制御ベースの分析を通じて、これらの違いについて詳細に説明します。
私たちはオンライン適応制御の新しく定義されたパラダイムに関する議論で終わり、次の質問をします。「リグレット最適制御戦略は展開可能ですか?」

要約(オリジナル)

Online learning and model reference adaptive control have many interesting intersections. One area where they differ however is in how the algorithms are analyzed and what objective or metric is used to discriminate ‘good’ algorithms from ‘bad’ algorithms. In adaptive control there are usually two objectives: 1) prove that all time varying parameters/states of the system are bounded, and 2) that the instantaneous error between the adaptively controlled system and a reference system converges to zero over time (or at least a compact set). For online learning the performance of algorithms is often characterized by the regret the algorithm incurs. Regret is defined as the cumulative loss (cost) over time from the online algorithm minus the cumulative loss (cost) of the single optimal fixed parameter choice in hindsight. Another significant difference between the two areas of research is with regard to the assumptions made in order to obtain said results. Adaptive control makes assumptions about the input-output properties of the control problem and derives solutions for a fixed error model or optimization task. In the online learning literature results are derived for classes of loss functions (i.e. convex) while a priori assuming that all time varying parameters are bounded, which for many optimization tasks is not unrealistic, but is a non starter in control applications. In this work we discuss these differences in detail through the regret based analysis of gradient descent for convex functions and the control based analysis of a streaming regression problem. We close with a discussion about the newly defined paradigm of online adaptive control and ask the following question ‘Are regret optimal control strategies deployable?’

arxiv情報

著者 Travis E. Gibson,Sawal Acharya
発行日 2025-01-08 15:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク