A Fast, Well-Founded Approximation to the Empirical Neural Tangent Kernel

要約

経験的ニューラル タンジェント カーネル (eNTK) を使用すると、特定のネットワークの表現をよく理解できます。多くの場合、eNTK は計算コストがはるかに低く、無限幅の NTK よりも広範囲に適用できます。
ただし、O 個の出力ユニット (O クラス分類器など) を備えたネットワークの場合、N 個の入力上の eNTK のサイズは $NO \times NO$ となり、$O((NO)^2)$ メモリを消費し、最大 $O(
(NO)^3)$ の計算。
したがって、既存のアプリケーションのほとんどは、 $N \times N$ カーネル行列を生成する数少ない近似値の 1 つを使用して、計算量を大幅に節約していますが、正当な理由はありません。
私たちは、「ロジットの合計」と呼ぶそのような近似の 1 つが、広い最終「読み出し」層を持つネットワークの初期化時に真の eNTK に収束することを証明します。
私たちの実験では、さまざまな設定におけるさまざまな用途に対するこの近似の品質を実証しています。

要約(オリジナル)

Empirical neural tangent kernels (eNTKs) can provide a good understanding of a given network’s representation: they are often far less expensive to compute and applicable more broadly than infinite width NTKs. For networks with O output units (e.g. an O-class classifier), however, the eNTK on N inputs is of size $NO \times NO$, taking $O((NO)^2)$ memory and up to $O((NO)^3)$ computation. Most existing applications have therefore used one of a handful of approximations yielding $N \times N$ kernel matrices, saving orders of magnitude of computation, but with limited to no justification. We prove that one such approximation, which we call ‘sum of logits’, converges to the true eNTK at initialization for any network with a wide final ‘readout’ layer. Our experiments demonstrate the quality of this approximation for various uses across a range of settings.

arxiv情報

著者 Mohamad Amin Mohamadi,Wonho Bae,Danica J. Sutherland
発行日 2023-06-07 15:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク