要約
複数の隠れ層を持つ深線形ネットワーク (DLN) の $L_{2}$ 正規化損失には、異なるランクの行列に対応する複数の極小値があります。
行列補完などのタスクでは、トレーニング データに適合する最小ランクの局所最小値に収束することが目標となります。
ランクを過小評価した最小値はデータに適合しないため回避できますが、GD はランクを過小評価した最小値で行き詰まる可能性があります。
SGD では、より高いランクの最小値からより低いランクの最小値にジャンプする確率は常に存在しますが、ジャンプして元に戻る確率はゼロであることを示します。
より正確には、$B_{r}$ にランク $r$ 以下のすべての最小値が含まれるように、セット $B_{1}\subset B_{2}\subset\cdots\subset B_{R}$ のシーケンスを定義します (
十分に小さいリッジパラメータ $\lambda$ と学習率 $\eta$ を吸収します: SGD には確率があります。
$B_{r}$ を離れるかどうかは 0 であり、どの開始点からでも、ゼロ以外の確率が存在します。
SGD は $B_{r}$ になります。
要約(オリジナル)
The $L_{2}$-regularized loss of Deep Linear Networks (DLNs) with more than one hidden layers has multiple local minima, corresponding to matrices with different ranks. In tasks such as matrix completion, the goal is to converge to the local minimum with the smallest rank that still fits the training data. While rank-underestimating minima can be avoided since they do not fit the data, GD might get stuck at rank-overestimating minima. We show that with SGD, there is always a probability to jump from a higher rank minimum to a lower rank one, but the probability of jumping back is zero. More precisely, we define a sequence of sets $B_{1}\subset B_{2}\subset\cdots\subset B_{R}$ so that $B_{r}$ contains all minima of rank $r$ or less (and not more) that are absorbing for small enough ridge parameters $\lambda$ and learning rates $\eta$: SGD has prob. 0 of leaving $B_{r}$, and from any starting point there is a non-zero prob. for SGD to go in $B_{r}$.
arxiv情報
著者 | Zihan Wang,Arthur Jacot |
発行日 | 2023-09-29 13:18:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google