要約
パラメーターのノルムを制御すると、多くの場合、ニューラル ネットワークをトレーニングするときに適切な一般化が得られます。
単純な直観を超えて、パラメーターのノルムと得られた推定量との関係は、理論的には誤解されたままです。
1 次元データを持つ 1 つの非表示 ReLU 層ネットワークの場合、この作業は、関数を表すために必要な最小パラメーターのノルムが、$\sqrt{1+x^2}$ 係数で重み付けされた 2 次導関数の全変動によって与えられることを示しています。
比較として、この $\sqrt{1+x^2}$ の重み付けは、バイアス項のノルムが無視されると消えます。
この追加の重み付けは非常に重要です。この作業では、最小ノルム補間器の一意性とスパース性 (ねじれの数) を強制することが示されているためです。
一方、バイアスのノルムを省略すると、疎でない解が可能になります。
したがって、正則化でバイアス項に明示的または暗黙的にペナルティを課すと、推定量がまばらになります。
このスパース性は、経験的に観察されたニューラル ネットワークの優れた一般化に関与している可能性があります。
要約(オリジナル)
Controlling the parameters’ norm often yields good generalisation when training neural networks. Beyond simple intuitions, the relation between parameters’ norm and obtained estimators theoretically remains misunderstood. For one hidden ReLU layer networks with unidimensional data, this work shows the minimal parameters’ norm required to represent a function is given by the total variation of its second derivative, weighted by a $\sqrt{1+x^2}$ factor. As a comparison, this $\sqrt{1+x^2}$ weighting disappears when the norm of the bias terms are ignored. This additional weighting is of crucial importance, since it is shown in this work to enforce uniqueness and sparsity (in number of kinks) of the minimal norm interpolator. On the other hand, omitting the bias’ norm allows for non-sparse solutions. Penalising the bias terms in the regularisation, either explicitly or implicitly, thus leads to sparse estimators. This sparsity might take part in the good generalisation of neural networks that is empirically observed.
arxiv情報
| 著者 | Etienne Boursier,Nicolas Flammarion |
| 発行日 | 2023-03-02 15:33:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google