要約
トランスフォーマーの残留ストリーム内の「安定領域」を特定します。この領域では、モデルの出力は小さな活性化の変化に対して鈍感なままですが、領域の境界では高い感度を示します。
これらの領域はトレーニング中に出現し、トレーニングが進行するかモデルのサイズが増加するにつれてより明確になります。
この領域は、以前に研究されたポリトープよりもはるかに大きいようです。
私たちの分析は、これらの安定した領域が意味論的な区別と一致しており、同様のプロンプトが領域内でクラスター化し、同じ領域からのアクティベーションが同様の次のトークンの予測につながることを示唆しています。
要約(オリジナル)
We identify ‘stable regions’ in the residual stream of Transformers, where the model’s output remains insensitive to small activation changes, but exhibits high sensitivity at region boundaries. These regions emerge during training and become more defined as training progresses or model size increases. The regions appear to be much larger than previously studied polytopes. Our analysis suggests that these stable regions align with semantic distinctions, where similar prompts cluster within regions, and activations from the same region lead to similar next token predictions.
arxiv情報
著者 | Jett Janiak,Jacek Karwowski,Chatrik Singh Mangat,Giorgi Giglemiani,Nora Petrova,Stefan Heimersheim |
発行日 | 2024-09-25 17:27:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google