要約
私たちは、文献にあるいくつかのツールを拡張および組み合わせて、高速で適応性があり、いつでもスケールフリーのオンライン学習アルゴリズムを設計します。
スケールフリーのリグレス限界は、大きな損失と非常に小さな損失の両方に向けて、最大損失に応じて線形にスケールする必要があります。
適応型リグレス限界は、アルゴリズムが簡単なデータを利用でき、潜在的に継続的なリグロングが発生する可能性があることを示しています。
私たちは、できるだけ少ないパラメータに依存する高速アルゴリズムの開発を目指しています。特にパラメータはいつでも可能であり、時間軸に依存しないようにする必要があります。
私たちの最初の主要なツールであるアイソチューニングは、後悔のトレードオフのバランスを取るという考え方を一般化したものです。
我々は、このような学習率を簡単に設計および分析するための一連のツールを開発し、学習率が後悔率 (定数、$O(\log T)$、$O(\sqrt{T})$、
など)同じ観測量について後から考えると、最適な学習率の係数 2 以内になります。
2 番目のツールはオンライン補正です。これを使用すると、多くのアルゴリズムの中心境界を取得できるようになり、ドメインが大きすぎる場合や部分的にのみ制約されている場合にリグレス境界が空になるのを防ぐことができます。
最後のツールである null 更新は、アルゴリズムが過度に大規模な更新を実行するのを防ぎます。これにより、際限のないリグロングが発生したり、無効な更新が発生したりする可能性があります。
これらのツールを使用して一般理論を開発し、それをいくつかの標準アルゴリズムに適用します。
特に、境界のないドメインに対する FTRL の小さな損失に対する適応性を (ほぼ完全に) 復元し、ミラー降下法 (少なくともブレグマン発散が 2 番目の引数で凸である場合) のバリアントに対するスケールフリーの適応保証を設計および証明し、拡張します。
スケールフリー保証に ML-Prod を適応させ、Prod、AdaHedge、BOA、および Soft-Bayes に関するその他の小規模な貢献をいくつか提供します。
要約(オリジナル)
We extend and combine several tools of the literature to design fast, adaptive, anytime and scale-free online learning algorithms. Scale-free regret bounds must scale linearly with the maximum loss, both toward large losses and toward very small losses. Adaptive regret bounds demonstrate that an algorithm can take advantage of easy data and potentially have constant regret. We seek to develop fast algorithms that depend on as few parameters as possible, in particular they should be anytime and thus not depend on the time horizon. Our first and main tool, isotuning, is a generalization of the idea of balancing the trade-off of the regret. We develop a set of tools to design and analyze such learning rates easily and show that they adapts automatically to the rate of the regret (whether constant, $O(\log T)$, $O(\sqrt{T})$, etc.) within a factor 2 of the optimal learning rate in hindsight for the same observed quantities. The second tool is an online correction, which allows us to obtain centered bounds for many algorithms, to prevent the regret bounds from being vacuous when the domain is overly large or only partially constrained. The last tool, null updates, prevents the algorithm from performing overly large updates, which could result in unbounded regret, or even invalid updates. We develop a general theory using these tools and apply it to several standard algorithms. In particular, we (almost entirely) restore the adaptivity to small losses of FTRL for unbounded domains, design and prove scale-free adaptive guarantees for a variant of Mirror Descent (at least when the Bregman divergence is convex in its second argument), extend Adapt-ML-Prod to scale-free guarantees, and provide several other minor contributions about Prod, AdaHedge, BOA and Soft-Bayes.
arxiv情報
著者 | Laurent Orseau,Marcus Hutter |
発行日 | 2023-07-11 12:53:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google