要約
Kolmogorov-Arnold Network (KAN) は、Liu らによって最近提案されたネットワーク構造です。
(2024) は、多層パーセプトロンと比較して、多くの科学指向のタスクにおいて解釈可能性の向上とより倹約的な設計を提供します。
この研究は、基底関数の線形結合によって表されるか、または低ランクの再生カーネル ヒルベルト空間 (RKHS) にある活性化関数を備えた KAN の一般化限界を確立することにより、KAN の厳密な理論分析を提供します。
最初のケースでは、一般化限界は、KAN の各層で活性化関数を形成する際の基底関数のさまざまな選択に対応し、各層で異なる演算子規範に適応されます。
演算子ノルムの特定の選択では、境界は係数行列の $l_1$ ノルムと活性化関数のリプシッツ定数でスケールされ、対数因数以外の組み合わせパラメーター (ノード数など) には依存しません。
さらに、私たちの結果は損失関数に対する有界性の仮定を必要としないため、回帰タイプの損失関数の一般的なクラスに適用できます。
低ランクの場合、汎化限界は、基礎となるランクおよび各層の活性化関数のリプシッツ定数に応じて多項式にスケールされます。
これらの境界は、シミュレートされたデータセットと実際のデータセットで確率的勾配降下法を使用してトレーニングされた KAN について経験的に調査されます。
数値結果は、これらの境界の実際的な関連性を示しています。
要約(オリジナル)
Kolmogorov-Arnold Network (KAN) is a network structure recently proposed by Liu et al. (2024) that offers improved interpretability and a more parsimonious design in many science-oriented tasks compared to multi-layer perceptrons. This work provides a rigorous theoretical analysis of KAN by establishing generalization bounds for KAN equipped with activation functions that are either represented by linear combinations of basis functions or lying in a low-rank Reproducing Kernel Hilbert Space (RKHS). In the first case, the generalization bound accommodates various choices of basis functions in forming the activation functions in each layer of KAN and is adapted to different operator norms at each layer. For a particular choice of operator norms, the bound scales with the $l_1$ norm of the coefficient matrices and the Lipschitz constants for the activation functions, and it has no dependence on combinatorial parameters (e.g., number of nodes) outside of logarithmic factors. Moreover, our result does not require the boundedness assumption on the loss function and, hence, is applicable to a general class of regression-type loss functions. In the low-rank case, the generalization bound scales polynomially with the underlying ranks as well as the Lipschitz constants of the activation functions in each layer. These bounds are empirically investigated for KANs trained with stochastic gradient descent on simulated and real data sets. The numerical results demonstrate the practical relevance of these bounds.
arxiv情報
著者 | Xianyang Zhang,Huijuan Zhou |
発行日 | 2024-12-04 16:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google