Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight Averaging for Better Generalization

要約

タイトル: ベストな汎化性能のためのいつでも適応可能な2つのテール平均化
要約:
– 本論文は、Polyak 平均化の非漸近的動作を改善する Tail 平均化が、ランダム最適化のいくつかの集合を除外しているため、学習率がゼロにできない有限の最適化ステップ数の場合、Polyak 平均化よりも訓練損失の局所最小点に近づくことが多いことを明らかにした。
– しかし、除外する最初のステップの数は重要なハイパーパラメーターであり、除外を早すぎたり遅すぎたりすると、リソースの非効率的な使用やサブ最適解につながる。
– さらに、平均化が開始する前には、損失値は最終パフォーマンスの弱い指標であり、早期停止が信頼できないことがある。
– この問題を解決するために、本論文では、いつでも適応可能で、純粋な最適化ではなく汎化性能の向上を目的とした Tail 平均化の anytime 変種を提案している。このアルゴリズムは、2つの可変長のランニング平均を基にしており、最適なテール長で境界付けられ、どちらか一方は定期的な評価を行い、ある程度の規則性で近似最適性を実現する。
– ほかのハイパーパラメーターや過学習の存在など、設定が非常に難しい場合でも、ハイパーパラメーターが必要なく、2つの重みセットの追加ストレージと定期的な損失評価のみが必要な Two-Tailed Averaging アルゴリズムは、実用的で広く適用可能な方法である。

要約(オリジナル)

Tail Averaging improves on Polyak averaging’s non-asymptotic behaviour by excluding a number of leading iterates of stochastic optimization from its calculations. In practice, with a finite number of optimization steps and a learning rate that cannot be annealed to zero, Tail Averaging can get much closer to a local minimum point of the training loss than either the individual iterates or the Polyak average. However, the number of leading iterates to ignore is an important hyperparameter, and starting averaging too early or too late leads to inefficient use of resources or suboptimal solutions. Our work focusses on improving generalization, which makes setting this hyperparameter even more difficult, especially in the presence of other hyperparameters and overfitting. Furthermore, before averaging starts, the loss is only weakly informative of the final performance, which makes early stopping unreliable. To alleviate these problems, we propose an anytime variant of Tail Averaging intended for improving generalization not pure optimization, that has no hyperparameters and approximates the optimal tail at all optimization steps. Our algorithm is based on two running averages with adaptive lengths bounded in terms of the optimal tail length, one of which achieves approximate optimality with some regularity. Requiring only the additional storage for two sets of weights and periodic evaluation of the loss, the proposed Two-Tailed Averaging algorithm is a practical and widely applicable method for improving generalization.

arxiv情報

著者 Gábor Melis
発行日 2023-04-17 14:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク