Characterizing stable regions in the residual stream of LLMs

要約

トランスフォーマーの残留ストリーム内の「安定領域」を特定します。この領域では、モデルの出力は小さな活性化の変化に対して鈍感なままですが、領域の境界では高い感度を示します。
これらの領域はトレーニング中に出現し、トレーニングが進行するかモデルのサイズが増加するにつれてより明確になります。
この領域は、以前に研究されたポリトープよりもはるかに大きいようです。
私たちの分析は、これらの安定した領域が意味論的な区別と一致しており、同様のプロンプトが領域内でクラスター化し、同じ領域からのアクティベーションが同様の次のトークンの予測につながることを示唆しています。
この研究は、ニューラル ネットワークの複雑さを理解し、トレーニングのダイナミクスに光を当て、解釈可能性を向上させるための有望な研究の方向性を提供します。

要約(オリジナル)

We identify ‘stable regions’ in the residual stream of Transformers, where the model’s output remains insensitive to small activation changes, but exhibits high sensitivity at region boundaries. These regions emerge during training and become more defined as training progresses or model size increases. The regions appear to be much larger than previously studied polytopes. Our analysis suggests that these stable regions align with semantic distinctions, where similar prompts cluster within regions, and activations from the same region lead to similar next token predictions. This work provides a promising research direction for understanding the complexity of neural networks, shedding light on training dynamics, and advancing interpretability.

arxiv情報

著者 Jett Janiak,Jacek Karwowski,Chatrik Singh Mangat,Giorgi Giglemiani,Nora Petrova,Stefan Heimersheim
発行日 2024-09-26 13:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク