要約
長年にわたり、多層パーセプトロン (MLP) ヘッドを備えたトランスフォーマーベースの事前トレーニング済みモデルが、テキスト分類タスクの標準となってきました。
ただし、MLP で使用される固定の非線形関数は、事前トレーニングされたエンコーダーによって生成された文脈化された埋め込みの複雑さを捉えるには不十分であることがよくあります。
さらに、MLP は通常、かなりの数のトレーニング パラメーターを必要とし、計算コストが高くなる可能性があります。
この研究では、トランスベースのエンコーダの分類ヘッドとして、Kolmogorov-Arnold Networks (KAN) と呼ばれる有望な MLP 代替案のバリアントである FourierKAN (FR-KAN) を導入します。
私たちの研究では、複数のテキスト分類タスクにわたるいくつかのトランスフォーマーベースの事前トレーニング済みモデルに対して、従来の MLP ヘッドの代わりに FR-KAN ヘッドを組み込むと、精度が平均 10%、F1 スコアが 11% 向上することが明らかになりました。
FR-KAN ヘッドはモデルの精度を向上させるだけでなく、トレーニングを高速化し、必要なパラメータを減らします。
私たちの研究は、いくつかの自然言語処理 (NLP) タスクにわたって KAN をより広範に応用するための新たな境地を開きます。
要約(オリジナル)
For many years, transformer-based pre-trained models with Multi-layer Perceptron (MLP) heads have been the standard for text classification tasks. However, the fixed non-linear functions employed by MLPs often fall short of capturing the intricacies of the contextualized embeddings produced by pre-trained encoders. Furthermore, MLPs usually require a significant number of training parameters, which can be computationally expensive. In this work, we introduce FourierKAN (FR-KAN), a variant of the promising MLP alternative called Kolmogorov-Arnold Networks (KANs), as classification heads for transformer-based encoders. Our studies reveal an average increase of 10% in accuracy and 11% in F1-score when incorporating FR-KAN heads instead of traditional MLP heads for several transformer-based pre-trained models across multiple text classification tasks. Beyond improving model accuracy, FR-KAN heads train faster and require fewer parameters. Our research opens new grounds for broader applications of KAN across several Natural Language Processing (NLP) tasks.
arxiv情報
著者 | Abdullah Al Imran,Md Farhan Ishmam |
発行日 | 2024-08-16 15:28:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google