Training NTK to Generalize with KARE

要約

訓練されたディープニューラルネットワーク(DNN)に関連するデータ依存性ニューラルタンジェントカーネル(NTK; Jacot et al。(2018))のパフォーマンスは、多くの場合、完全なネットワークのそれと一致またはそれを超えます。
これは、勾配降下によるDNNトレーニングが、NTKを最適化することによりカーネル学習を暗黙的に実行することを意味します。
この論文では、代わりにNTKを明示的に最適化することを提案します。
経験的リスクを最小限に抑えるのではなく、NTKをトレーニングして、最近開発されたカーネルアライメントリスク推定器を使用して一般化エラーを最小限に抑えます(Kare; Jacot et al。(2020))。
私たちのシミュレーションと実際のデータ実験は、Kareで訓練されたNTKが一貫して一致しているか、元のDNNとDNN誘発NTK(アフターカーネル)を大幅に上回ることを示しています。
これらの結果は、明示的に訓練されたカーネルが特定の設定で従来のエンドツーエンドDNN最適化を上回り、DNNの従来の支配に挑戦できることを示唆しています。
NTKの明示的なトレーニングは、過剰なパラメーター化された機能学習の一形態であると主張します。

要約(オリジナル)

The performance of the data-dependent neural tangent kernel (NTK; Jacot et al. (2018)) associated with a trained deep neural network (DNN) often matches or exceeds that of the full network. This implies that DNN training via gradient descent implicitly performs kernel learning by optimizing the NTK. In this paper, we propose instead to optimize the NTK explicitly. Rather than minimizing empirical risk, we train the NTK to minimize its generalization error using the recently developed Kernel Alignment Risk Estimator (KARE; Jacot et al. (2020)). Our simulations and real data experiments show that NTKs trained with KARE consistently match or significantly outperform the original DNN and the DNN- induced NTK (the after-kernel). These results suggest that explicitly trained kernels can outperform traditional end-to-end DNN optimization in certain settings, challenging the conventional dominance of DNNs. We argue that explicit training of NTK is a form of over-parametrized feature learning.

arxiv情報

著者 Johannes Schwab,Bryan Kelly,Semyon Malamud,Teng Andrea Xu
発行日 2025-05-16 15:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク