要約
この論文では、さまざまな設定におけるオンライン凸最適化の問題を分析します。
我々は、完全適応型の敵対者によるオンライン線形最適化のアルゴリズムはすべて、オンライン凸最適化のアルゴリズムであることを示します。
また、完全情報フィードバックを必要とするそのようなアルゴリズムは、同等のリグレットバウンドを伴うセミバンディットフィードバックを備えたアルゴリズムに変換できることも示します。
さらに、決定論的セミバンディットフィードバックを使用して完全に適応する敵対者向けに設計されたアルゴリズムは、気付かない敵に直面した場合、確率的セミバンディットフィードバックのみを使用して同様の限界を取得できることを示します。
これを使用して、1 次アルゴリズムを同等のリグレス限界を持つ 0 次アルゴリズムに変換する一般的なメタアルゴリズムを記述します。
私たちのフレームワークを使用すると、完全情報フィードバック、バンディット フィードバック、確率的後悔、敵対的後悔、さまざまな形の非定常的後悔など、さまざまな設定でオンライン最適化を分析できます。
私たちの分析を利用して、線形最適化オラクルを使用した初の効率的な射影のないオンライン凸最適化アルゴリズムを提供します。
要約(オリジナル)
In this paper, we analyze the problem of online convex optimization in different settings. We show that any algorithm for online linear optimization with fully adaptive adversaries is an algorithm for online convex optimization. We also show that any such algorithm that requires full-information feedback may be transformed to an algorithm with semi-bandit feedback with comparable regret bound. We further show that algorithms that are designed for fully adaptive adversaries using deterministic semi-bandit feedback can obtain similar bounds using only stochastic semi-bandit feedback when facing oblivious adversaries. We use this to describe general meta-algorithms to convert first order algorithms to zeroth order algorithms with comparable regret bounds. Our framework allows us to analyze online optimization in various settings, such full-information feedback, bandit feedback, stochastic regret, adversarial regret and various forms of non-stationary regret. Using our analysis, we provide the first efficient projection-free online convex optimization algorithm using linear optimization oracles.
arxiv情報
著者 | Mohammad Pedramfar,Vaneet Aggarwal |
発行日 | 2024-02-13 17:42:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google