要約
二乗損失を伴うモデルのトレーニングにニューラル タンジェント カーネル (NTK) 近似がいつ有効であるかを検討します。
Chizatらの怠惰なトレーニング設定では、
2019 年に、$\alpha = O(T)$ の係数でモデルを再スケーリングするだけで、トレーニング時間 $T$ まで NTK 近似が有効であることが十分であることを示しました。
私たちの限界は厳しく、Chizat らの以前の限界を改善しています。
2019 年では、$\alpha = O(T^2)$ というより大きな再スケーリング係数が必要でした。
要約(オリジナル)
We study when the neural tangent kernel (NTK) approximation is valid for training a model with the square loss. In the lazy training setting of Chizat et al. 2019, we show that rescaling the model by a factor of $\alpha = O(T)$ suffices for the NTK approximation to be valid until training time $T$. Our bound is tight and improves on the previous bound of Chizat et al. 2019, which required a larger rescaling factor of $\alpha = O(T^2)$.
arxiv情報
著者 | Enric Boix-Adsera,Etai Littwin |
発行日 | 2023-06-12 16:04:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google