Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons

要約

多層パーセプトロン (MLP) は長い間ディープ ラーニングの基礎であり、複雑な関係をモデル化する能力で知られています。
最近、コルモゴロフ・アーノルド・ネットワーク (KAN) が、MLP のニューロン中心のアプローチとは異なり、柔軟性の高い学習可能な活性化関数をネットワーク エッジ上で直接利用する、魅力的な代替手段として登場しました。
ただし、KAN では学習可能なパラメータの数が大幅に増加するため、データが不足している環境での有効性について懸念が生じています。
この論文では、低データ領域に焦点を当て、アルゴリズムと実験の両方の観点から MLP と KAN の包括的な比較研究を示します。
各ニューロンに固有のパラメーター化された活性化関数を備えた MLP を設計するための効果的な手法を紹介し、KAN とのよりバランスの取れた比較を可能にします。
シミュレーションされたデータと医学および工学からの 2 つの現実世界のデータセットに対する経験的評価を使用して、ネットワークの深さの役割に特に注意を払いながら、モデルの複雑さと精度の間のトレードオフを調査します。
私たちの調査結果は、個別化された活性化関数を備えた MLP は、特にサンプルサイズが約 100 に制限されている場合に、パラメーターをわずかに増加させるだけで、大幅に高い予測精度を達成できることを示しています。
たとえば、積層造形における 3 クラスの分類問題では、MLP は 0.91 の中央精度を達成し、デフォルトのハイパーパラメータでは中央精度 0.53 にしか達しない KAN を大幅に上回ります。
これらの結果は、ニューラル ネットワークにおける活性化関数の選択の影響についての貴重な洞察を提供します。

要約(オリジナル)

Multilayer Perceptrons (MLPs) have long been a cornerstone in deep learning, known for their capacity to model complex relationships. Recently, Kolmogorov-Arnold Networks (KANs) have emerged as a compelling alternative, utilizing highly flexible learnable activation functions directly on network edges, a departure from the neuron-centric approach of MLPs. However, KANs significantly increase the number of learnable parameters, raising concerns about their effectiveness in data-scarce environments. This paper presents a comprehensive comparative study of MLPs and KANs from both algorithmic and experimental perspectives, with a focus on low-data regimes. We introduce an effective technique for designing MLPs with unique, parameterized activation functions for each neuron, enabling a more balanced comparison with KANs. Using empirical evaluations on simulated data and two real-world data sets from medicine and engineering, we explore the trade-offs between model complexity and accuracy, with particular attention to the role of network depth. Our findings show that MLPs with individualized activation functions achieve significantly higher predictive accuracy with only a modest increase in parameters, especially when the sample size is limited to around one hundred. For example, in a three-class classification problem within additive manufacturing, MLPs achieve a median accuracy of 0.91, significantly outperforming KANs, which only reach a median accuracy of 0.53 with default hyperparameters. These results offer valuable insights into the impact of activation function selection in neural networks.

arxiv情報

著者 Farhad Pourkamali-Anaraki
発行日 2024-09-16 16:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML パーマリンク