A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks

要約

深層学習は長い間、多層パーセプトロン (MLP) によって支配されており、さまざまな領域で他の最適化可能なモデルよりも優れていることが実証されています。
最近、MLP に代わる新たなネットワークであるコルモゴロフ・アーノルド・ネットワーク (KAN) が登場しました。これは、根本的に異なる数学的フレームワークに基づいています。
著者らによると、KAN は、継続的な学習シナリオにおける壊滅的な忘却など、MLP のいくつかの主要な問題に対処します。
ただし、この主張は、おもちゃの 1D データセットに対する回帰タスクの結果によってのみ裏付けられています。
このペーパーでは、特に MNIST データセットを使用して、コンピューター ビジョン内の継続的な学習タスクにおける KAN のパフォーマンスを評価することで調査を拡張します。
この目的を達成するために、クラス増分学習シナリオで MLP と 2 つの KAN ベースのモデルの動作の構造化分析を実行し、関連するアーキテクチャが同じ数のトレーニング可能なパラメーターを持つことを確認します。
私たちの結果は、KAN の効率的なバージョンが従来の MLP と元の KAN 実装の両方よりも優れていることを示しています。
さらに、MLP と KAN のハイパーパラメータの影響、およびバイアスやスケールの重みなど、KAN の特定のトレーニング可能なパラメータの影響を分析します。
さらに、最近の KAN ベースの畳み込みネットワークの予備調査を提供し、そのパフォーマンスを従来の畳み込みニューラル ネットワークのパフォーマンスと比較します。
私たちのコードは https://github.com/MrPio/KAN-Continual_Learning_tests で見つけることができます。

要約(オリジナル)

Deep learning has long been dominated by multi-layer perceptrons (MLPs), which have demonstrated superiority over other optimizable models in various domains. Recently, a new alternative to MLPs has emerged – Kolmogorov-Arnold Networks (KAN)- which are based on a fundamentally different mathematical framework. According to their authors, KANs address several major issues in MLPs, such as catastrophic forgetting in continual learning scenarios. However, this claim has only been supported by results from a regression task on a toy 1D dataset. In this paper, we extend the investigation by evaluating the performance of KANs in continual learning tasks within computer vision, specifically using the MNIST datasets. To this end, we conduct a structured analysis of the behavior of MLPs and two KAN-based models in a class-incremental learning scenario, ensuring that the architectures involved have the same number of trainable parameters. Our results demonstrate that an efficient version of KAN outperforms both traditional MLPs and the original KAN implementation. We further analyze the influence of hyperparameters in MLPs and KANs, as well as the impact of certain trainable parameters in KANs, such as bias and scale weights. Additionally, we provide a preliminary investigation of recent KAN-based convolutional networks and compare their performance with that of traditional convolutional neural networks. Our codes can be found at https://github.com/MrPio/KAN-Continual_Learning_tests.

arxiv情報

著者 Alessandro Cacciatore,Valerio Morelli,Federica Paganica,Emanuele Frontoni,Lucia Migliorelli,Daniele Berardini
発行日 2024-09-27 15:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク