Constrained Parameter Regularization

要約

正則化は深層学習トレーニングの重要な要素であり、重み減衰が一般的に使用されるアプローチです。
一定のペナルティ係数をすべてのパラメータに均一に適用します。
これは、一部のパラメーターについては不必要に制限する一方、他のパラメーターについては不十分に制限する可能性があります。
さまざまなパラメーター グループのペナルティ係数を動的に調整するために、従来の重み減衰の代替として制約付きパラメーター正則化 (CPR) を提案します。
すべてのパラメータに単一の一定のペナルティを適用する代わりに、パラメータ グループの統計的尺度 (L$_2$ ノルムなど) に上限を強制します。
その結果、学習は制約最適化問題となり、拡張ラグランジュ法の適応によってこれに対処します。
CPR には 2 つのハイパーパラメータのみが必要で、測定可能な実行時のオーバーヘッドは発生しません。
さらに、最適化中に上限を調整するためのシンプルだが効率的なメカニズムを提案します。
私たちは、「グロッキング」現象、コンピューター ビジョン、および言語モデリング タスクに関する実験における CPR の有効性の経験的証拠を提供します。
私たちの結果は、CPR がグロッキングの影響を打ち消し、従来の体重減少と一貫して同等またはそれを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Regularization is a critical component in deep learning training, with weight decay being a commonly used approach. It applies a constant penalty coefficient uniformly across all parameters. This may be unnecessarily restrictive for some parameters, while insufficiently restricting others. To dynamically adjust penalty coefficients for different parameter groups, we present constrained parameter regularization (CPR) as an alternative to traditional weight decay. Instead of applying a single constant penalty to all parameters, we enforce an upper bound on a statistical measure (e.g., the L$_2$-norm) of parameter groups. Consequently, learning becomes a constraint optimization problem, which we address by an adaptation of the augmented Lagrangian method. CPR only requires two hyperparameters and incurs no measurable runtime overhead. Additionally, we propose a simple but efficient mechanism to adapt the upper bounds during the optimization. We provide empirical evidence of CPR’s efficacy in experiments on the ‘grokking’ phenomenon, computer vision, and language modeling tasks. Our results demonstrate that CPR counteracts the effects of grokking and consistently matches or outperforms traditional weight decay.

arxiv情報

著者 Jörg K. H. Franke,Michael Hefenbrock,Gregor Koehler,Frank Hutter
発行日 2023-12-06 14:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク