要約
最後の層の外れ値の寸法、つまり、大部分の入力に対して極端な活性化を示す寸法を研究します。
多くの異なる現代言語モデルで外れ値の寸法が生じることを示し、その機能を頻繁に予測するというヒューリスティックに戻ります。
さらに、残りの寸法に相殺された重量質量を割り当てることにより、モデルが文脈的に適切でないときにこのヒューリスティックをブロックする方法を示し、どのモデルパラメーターが外れ値の寸法を高めるか、トレーニング中に発生するかを調査します。
外れ値の寸法は、有用なトークン予測ヒューリスティックを実装するために、多くの異なるモデルによって発見された特殊なメカニズムであると結論付けています。
要約(オリジナル)
We study last-layer outlier dimensions, i.e. dimensions that display extreme activations for the majority of inputs. We show that outlier dimensions arise in many different modern language models, and trace their function back to the heuristic of constantly predicting frequent words. We further show how a model can block this heuristic when it is not contextually appropriate, by assigning a counterbalancing weight mass to the remaining dimensions, and we investigate which model parameters boost outlier dimensions and when they arise during training. We conclude that outlier dimensions are a specialized mechanism discovered by many distinct models to implement a useful token prediction heuristic.
arxiv情報
著者 | Iuri Macocco,Nora Graichen,Gemma Boleda,Marco Baroni |
発行日 | 2025-03-28 14:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google