ReLU-KAN: New Kolmogorov-Arnold Networks that Only Need Matrix Addition, Dot Multiplication, and ReLU

要約

コルモゴロフ・アーノルド・ネットワーク (KAN) は、基底関数 (B スプライン) 計算の複雑さによって制限されており、GPU での並列コンピューティング機能が制限されています。
本稿では、KAN の核となる考え方を継承した新しい ReLU-KAN 実装を提案します。
ReLU (Rectified Linear Unit) と点単位の乗算を採用することで、KAN の基底関数の設計を簡素化し、効率的な CUDA コンピューティングのために計算プロセスを最適化します。
提案された ReLU-KAN アーキテクチャは、推論とトレーニングの両方のために既存の深層学習フレームワーク (PyTorch など) に容易に実装できます。
実験結果は、ReLU-KAN が 4 層ネットワークを備えた従来の KAN と比較して 20 倍の高速化を達成することを示しています。
さらに、ReLU-KAN は、KAN の「壊滅的な忘却回避」特性を維持しながら、優れたフィッティング能力により、より安定したトレーニングプロセスを示します。
コードは https://github.com/quiqi/relu_kan で入手できます。

要約(オリジナル)

Limited by the complexity of basis function (B-spline) calculations, Kolmogorov-Arnold Networks (KAN) suffer from restricted parallel computing capability on GPUs. This paper proposes a novel ReLU-KAN implementation that inherits the core idea of KAN. By adopting ReLU (Rectified Linear Unit) and point-wise multiplication, we simplify the design of KAN’s basis function and optimize the computation process for efficient CUDA computing. The proposed ReLU-KAN architecture can be readily implemented on existing deep learning frameworks (e.g., PyTorch) for both inference and training. Experimental results demonstrate that ReLU-KAN achieves a 20x speedup compared to traditional KAN with 4-layer networks. Furthermore, ReLU-KAN exhibits a more stable training process with superior fitting ability while preserving the ‘catastrophic forgetting avoidance’ property of KAN. You can get the code in https://github.com/quiqi/relu_kan

arxiv情報

著者 Qi Qiu,Tao Zhu,Helin Gong,Liming Chen,Huansheng Ning
発行日 2024-08-12 17:17:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク