Outlier Dimensions Encode Task-Specific Knowledge

要約

大規模言語モデル (LLM) からの表現は、非常に高い分散を持つ少数の次元のサブセットによって支配されることが知られています。
これまでの研究では、LLM 表現でこれらの外れ値の次元を除去すると下流のパフォーマンスに悪影響を及ぼすが、外れ値の次元は埋め込みの表現品質に悪影響を与えると主張してきました。
この研究では、微調整が外れ値のディメンションにどのような影響を与えるかを調査し、1) 事前トレーニングで発生した外れ値のディメンションが微調整されたモデルに存続すること、2) 単一の外れ値のディメンションが最小限のエラー率で下流のタスクを完了できることを示します。
私たちの結果は、外れ値の次元が重要なタスク固有の知識をエンコードできること、および単一の外れ値の次元の表現の値が下流のモデルの決定を促進することを示唆しています。

要約(オリジナル)

Representations from large language models (LLMs) are known to be dominated by a small subset of dimensions with exceedingly high variance. Previous works have argued that although ablating these outlier dimensions in LLM representations hurts downstream performance, outlier dimensions are detrimental to the representational quality of embeddings. In this study, we investigate how fine-tuning impacts outlier dimensions and show that 1) outlier dimensions that occur in pre-training persist in fine-tuned models and 2) a single outlier dimension can complete downstream tasks with a minimal error rate. Our results suggest that outlier dimensions can encode crucial task-specific knowledge and that the value of a representation in a single outlier dimension drives downstream model decisions.

arxiv情報

著者 William Rudman,Catherine Chen,Carsten Eickhoff
発行日 2024-01-23 18:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク