Sparsify-then-Classify: From Internal Neurons of Large Language Models To Efficient Text Classifiers

要約

大規模言語モデル (LLM) が革命をもたらした多くのタスクの中には、テキスト分類があります。
ただし、事前トレーニング済み LLM をテキスト分類に適用する既存のアプローチは、主に、隠れ状態の最後の層のみからの単一トークン出力の使用に依存しています。
その結果、効率性、タスクの特異性、解釈可能性の制限に悩まされます。
私たちの研究では、すべてのアクティブ化状態と非表示状態に対して複数のプーリング戦略を採用することで、すべての内部表現を使用するアプローチに貢献しています。
当社の新しい軽量戦略である Sparsify-then-Classify (STC) は、まずタスク固有の特徴をレイヤーごとにスパース化し、次にテキスト分類のためにレイヤー全体を集約します。
STC は、既存の LLM の上にシームレスなプラグ アンド プレイ モジュールとして適用できます。
モデルとデータセットの包括的なセットに対する私たちの実験では、STC が事前トレーニング済みおよび微調整されたモデルの分類パフォーマンスを一貫して向上させるだけでなく、トレーニングと推論の両方でより効率的であり、より本質的に解釈可能であることを示しています。

要約(オリジナル)

Among the many tasks that Large Language Models (LLMs) have revolutionized is text classification. However, existing approaches for applying pretrained LLMs to text classification predominantly rely on using single token outputs from only the last layer of hidden states. As a result, they suffer from limitations in efficiency, task-specificity, and interpretability. In our work, we contribute an approach that uses all internal representations by employing multiple pooling strategies on all activation and hidden states. Our novel lightweight strategy, Sparsify-then-Classify (STC) first sparsifies task-specific features layer-by-layer, then aggregates across layers for text classification. STC can be applied as a seamless plug-and-play module on top of existing LLMs. Our experiments on a comprehensive set of models and datasets demonstrate that STC not only consistently improves the classification performance of pretrained and fine-tuned models, but is also more efficient for both training and inference, and is more intrinsically interpretable.

arxiv情報

著者 Yilun Liu,Difan Jiao,Ashton Anderson
発行日 2023-11-27 16:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク