Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control

要約

タイトル:Frank-Wolfe最適化によるメモリを使用した効率的なオンライン学習:有界動的後悔を持つアルゴリズムと制御への応用

要約:
– オンライン学習において、プロジェクション操作は典型的な計算ボトルネックである。
– この論文では、オンライン凸最適化フレームワークの内でプロジェクションフリーなオンライン学習を可能にする。
– Online Convex Optimization with Memory(OCO-M)は、オンライン学習の損失関数が現在と過去の意思決定に依存することで、意思決定の履歴が現在の結果に影響を与えるキャプチャーする。
– この論文では、メタベース学習アルゴリズムの導入により、動的後悔を最小限に抑えるプロジェクションフリーなアルゴリズムを紹介する。 
– 人工知能アプリケーションにおいて、自律エージェントがリアルタイムに時変環境に適応する必要があり、過去の意思決定が現在にどのように影響を与えるかを考慮する必要がある。
– 例えば、動的システムのオンライン制御、統計的アービトラージ、時系列予測などが挙げられる。
– このアルゴリズムは、オンラインFrank-Wolfe(OFW)アルゴリズムとヘッジアルゴリズムをベースに構築されている。
– 我々はアルゴリズムを、予測不可能なプロセスノイズの存在下での線形時変システムのオンライン制御に適用する方法を示す。そのために、我々はメモリーを持ち、最適な時変リニアフィードバック制御ポリシーに対する有界動的後悔を持つ初めてのコントローラーを開発する。
– 我々は、オンライン制御のシミュレーションシナリオにおいて、線形時不変システムのオンライン制御にアルゴリズムを適用し、その有効性を検証した。

要約(オリジナル)

Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) — OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop the first controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.

arxiv情報

著者 Hongyu Zhou,Zirui Xu,Vasileios Tzoumas
発行日 2023-03-30 01:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク