The NTK approximation is valid for longer than you think

要約

二乗損失を伴うモデルのトレーニングにニューラル タンジェント カーネル (NTK) 近似がいつ有効であるかを検討します。
Chizatらの怠惰なトレーニング設定では、
2019 年に、$\alpha = O(T)$ の係数でモデルを再スケーリングするだけで、トレーニング時間 $T$ まで NTK 近似が有効であることが十分であることを示しました。
私たちの限界は厳しく、Chizat らの以前の限界を改善しています。
2019 年では、$\alpha = O(T^2)$ というより大きな再スケーリング係数が必要でした。

要約(オリジナル)

We study when the neural tangent kernel (NTK) approximation is valid for training a model with the square loss. In the lazy training setting of Chizat et al. 2019, we show that rescaling the model by a factor of $\alpha = O(T)$ suffices for the NTK approximation to be valid until training time $T$. Our bound is tight and improves on the previous bound of Chizat et al. 2019, which required a larger rescaling factor of $\alpha = O(T^2)$.

arxiv情報

著者 Enric Boix-Adsera,Etai Littwin
発行日 2023-05-22 15:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク