要約
この研究では、従来の重み減衰に代わる制約付きパラメータ正則化 (CPR) を紹介します。
すべてのパラメータに一定のペナルティを均一に適用する代わりに、個々のパラメータ グループの統計的尺度 (L$_2$ ノルムなど) に上限を強制します。
これにより、学習が制約付きの最適化問題として再定式化されます。
これを解決するために、拡張ラグランジュ法の適応を利用します。
私たちのアプローチでは、さまざまなパラメーター グループ間で正則化の強度を変えることができ、正則化項に明示的なペナルティ係数を設ける必要がなくなります。
CPR には 2 つのハイパーパラメータのみが必要で、測定可能な実行時のオーバーヘッドは発生しません。
私たちは、「グロッキング」現象、画像分類、言語モデリングの実験を通じて、CPR の有効性の経験的証拠を提供します。
私たちの調査結果は、CPR がグロッキングの影響を打ち消すことができ、従来の体重減少のパフォーマンスと一貫して同等またはそれを上回ることを示しています。
要約(オリジナル)
This work presents constrained parameter regularization (CPR), an alternative to traditional weight decay. Instead of applying a constant penalty uniformly to all parameters, we enforce an upper bound on a statistical measure (e.g., the L$_2$-norm) of individual parameter groups. This reformulates learning as a constrained optimization problem. To solve this, we utilize an adaptation of the augmented Lagrangian method. Our approach allows for varying regularization strengths across different parameter groups, removing the need for explicit penalty coefficients in the regularization terms. CPR only requires two hyperparameters and introduces no measurable runtime overhead. We offer empirical evidence of CPR’s effectiveness through experiments in the ‘grokking’ phenomenon, image classification, and language modeling. Our findings show that CPR can counteract the effects of grokking, and it consistently matches or surpasses the performance of traditional weight decay.
arxiv情報
著者 | Jörg K. H. Franke,Michael Hefenbrock,Gregor Koehler,Frank Hutter |
発行日 | 2023-11-15 15:50:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google