On the expressiveness and spectral bias of KANs

要約

コルモゴロフ-アーノルド ネットワーク (KAN) \cite{liu2024kan} は、多くの深層学習モデルの一般的なアーキテクチャ バックボーンである多層パーセプトロン (MLP) に代わる可能性のあるものとしてごく最近提案されました。
KAN は科学向け AI のさまざまなタスクで成功を収めており、関数回帰、偏微分方程式解法、およびその他多くの科学的問題において実証された効率性と精度が実証されています。
この記事では、理論的な観点に重点を置き、KAN と MLP の比較を再検討します。
一方で、KAN と MLP の表現および近似能力を比較します。
我々は、MLP が同等のサイズの KAN を使用して表現できることを確立します。
これは、KAN の近似および表現能力が少なくとも MLP と同等であることを示しています。
逆に、MLP を使用して KAN を表現できることを示しますが、この表現ではパラメーターの数が KAN グリッド サイズの係数で増加することを示します。
これは、大きなグリッド サイズを持つ KAN が、特定の関数を近似する際に MLP よりも効率的である可能性があることを示唆しています。
一方、学習と最適化の観点から、MLP と比較した KAN のスペクトルバイアスを研究します。
KAN は MLP よりも低周波数への偏りが少ないことを示します。
KAN に特有のマルチレベル学習機能、つまりスプラインのグリッド拡張により、高周波成分の学習プロセスが改善されることを強調します。
KAN の深さ、幅、グリッド サイズをさまざまに選択した場合の詳細な比較が行われ、実際にハイパーパラメータを選択する方法が明らかになります。

要約(オリジナル)

Kolmogorov-Arnold Networks (KAN) \cite{liu2024kan} were very recently proposed as a potential alternative to the prevalent architectural backbone of many deep learning models, the multi-layer perceptron (MLP). KANs have seen success in various tasks of AI for science, with their empirical efficiency and accuracy demostrated in function regression, PDE solving, and many more scientific problems. In this article, we revisit the comparison of KANs and MLPs, with emphasis on a theoretical perspective. On the one hand, we compare the representation and approximation capabilities of KANs and MLPs. We establish that MLPs can be represented using KANs of a comparable size. This shows that the approximation and representation capabilities of KANs are at least as good as MLPs. Conversely, we show that KANs can be represented using MLPs, but that in this representation the number of parameters increases by a factor of the KAN grid size. This suggests that KANs with a large grid size may be more efficient than MLPs at approximating certain functions. On the other hand, from the perspective of learning and optimization, we study the spectral bias of KANs compared with MLPs. We demonstrate that KANs are less biased toward low frequencies than MLPs. We highlight that the multi-level learning feature specific to KANs, i.e. grid extension of splines, improves the learning process for high-frequency components. Detailed comparisons with different choices of depth, width, and grid sizes of KANs are made, shedding some light on how to choose the hyperparameters in practice.

arxiv情報

著者 Yixuan Wang,Jonathan W. Siegel,Ziming Liu,Thomas Y. Hou
発行日 2024-10-02 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク