要約
このモノグラフでは、オンライン凸最適化の現代的な見方を通して、オンライン学習の基本概念を紹介する。ここでいうオンライン学習とは、最悪ケースを仮定した後悔最小化の枠組みを指す。ユークリッドおよび非ユークリッドの設定において、凸損失によるオンライン学習の一次および二次アルゴリズムを紹介する。すべてのアルゴリズムは、オンライン・ミラー降下法、Follow-The-Regularized-Leader法、およびそれらの変形法のインスタンスとして明確に提示される。特に、アルゴリズムのパラメータ調整と、適応的でパラメータフリーのオンライン学習アルゴリズムによる非拘束領域での学習の問題に注意が払われている。非凸損失は凸代理損失とランダム化によって対処する。また、敵対的・確率的マルチアームド・バンディットの問題に触れながら、バンディットの設定についても簡単に議論する。これらのノートは凸解析の予備知識を必要とせず、必要な数学的ツールはすべて厳密に説明されている。さらに、すべての証明は、できるだけ単純で短くなるように注意深く選ばれている。
要約(オリジナル)
In this monograph, I introduce the basic concepts of Online Learning through a modern view of Online Convex Optimization. Here, online learning refers to the framework of regret minimization under worst-case assumptions. I present first-order and second-order algorithms for online learning with convex losses, in Euclidean and non-Euclidean settings. All the algorithms are clearly presented as instantiation of Online Mirror Descent or Follow-The-Regularized-Leader and their variants. Particular attention is given to the issue of tuning the parameters of the algorithms and learning in unbounded domains, through adaptive and parameter-free online learning algorithms. Non-convex losses are dealt through convex surrogate losses and through randomization. The bandit setting is also briefly discussed, touching on the problem of adversarial and stochastic multi-armed bandits. These notes do not require prior knowledge of convex analysis and all the required mathematical tools are rigorously explained. Moreover, all the included proofs have been carefully chosen to be as simple and as short as possible.
arxiv情報
著者 | Francesco Orabona |
発行日 | 2025-05-01 16:17:05+00:00 |
arxivサイト | arxiv_id(pdf) |