Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise

要約

Adamオプティマイザは実用上成功しているにもかかわらず、そのアルゴリズム構成要素の理論的理解はまだ限定的である。特に、Adamに関する既存の解析のほとんどは、SGDのような非合成的アルゴリズムによって単純に達成できる収束率を示している。本研究では、アダムのアルゴリズム構成要素の重要性を強調するオンライン学習に基づく異なる視点を提供する。Cutkoskyら(2023)に触発され、我々は更新のオンライン学習と呼ばれるフレームワークを検討する。このフレームワークにより、優れたオプティマイザの設計は、優れたオンライン学習器の設計に還元される。我々の主な観察は、AdamがFollow-the-Regularized-Leader(FTRL)と呼ばれる原理的なオンライン学習フレームワークに対応していることである。この観察に基づき、我々はオンライン学習の観点からそのアルゴリズム構成要素の利点を研究する。

要約(オリジナル)

Despite the success of the Adam optimizer in practice, the theoretical understanding of its algorithmic components still remains limited. In particular, most existing analyses of Adam show the convergence rate that can be simply achieved by non-adative algorithms like SGD. In this work, we provide a different perspective based on online learning that underscores the importance of Adam’s algorithmic components. Inspired by Cutkosky et al. (2023), we consider the framework called online learning of updates, where we choose the updates of an optimizer based on an online learner. With this framework, the design of a good optimizer is reduced to the design of a good online learner. Our main observation is that Adam corresponds to a principled online learning framework called Follow-the-Regularized-Leader (FTRL). Building on this observation, we study the benefits of its algorithmic components from the online learning perspective.

arxiv情報

著者 Kwangjun Ahn,Zhiyu Zhang,Yunbum Kook,Yan Dai
発行日 2024-02-02 17:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC パーマリンク