SPIN: Sparsifying and Integrating Internal Neurons in Large Language Models for Text Classification

要約

大規模言語モデル (LLM) が革命をもたらした多くのタスクの中には、テキスト分類があります。
しかし、現在のテキスト分類パラダイムは、LLM の最終層の出力のみに依存しており、内部ニューロンに含まれる豊富な情報はほとんど利用されていません。
この研究では、テキスト分類のために LLM の中間層の内部ニューロンをスパース化して統合する、モデルに依存しないフレームワークである SPIN を紹介します。
具体的には、SPIN は、線形プローブベースの顕著なニューロン選択によって層ごとに内部ニューロンをまばらにし、無関係なニューロンからのノイズを回避し、効率を確保します。
次に、複数層の顕著なニューロンが統合されて、分類ヘッドの多層特徴として機能します。
広範な実験結果は、私たちが提案した SPIN がテキスト分類の精度、効率、解釈可能性を大幅に向上させることを示しています。

要約(オリジナル)

Among the many tasks that Large Language Models (LLMs) have revolutionized is text classification. Current text classification paradigms, however, rely solely on the output of the final layer in the LLM, with the rich information contained in internal neurons largely untapped. In this study, we present SPIN: a model-agnostic framework that sparsifies and integrates internal neurons of intermediate layers of LLMs for text classification. Specifically, SPIN sparsifies internal neurons by linear probing-based salient neuron selection layer by layer, avoiding noise from unrelated neurons and ensuring efficiency. The cross-layer salient neurons are then integrated to serve as multi-layered features for the classification head. Extensive experimental results show our proposed SPIN significantly improves text classification accuracy, efficiency, and interpretability.

arxiv情報

著者 Difan Jiao,Yilun Liu,Zhenwei Tang,Daniel Matter,Jürgen Pfeffer,Ashton Anderson
発行日 2024-06-05 17:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク