要約
私たちは、ほとんどの既存のフロンティア大規模言語モデル (LLM) のアーキテクチャのバックボーンであるデコーダ専用のトランスフォーマー内で情報がどのように伝播するかを研究します。
私たちは理論的な信号伝播分析に依存しています。具体的には、Transformer の最終層の最後のトークンの表現を分析します。これは、次のトークンの予測に使用される表現だからです。
私たちの分析により、表現の崩壊現象が明らかになりました。Transformer への特定の個別の入力シーケンスが、最終的なトークンで任意に近い表現を生成できることを証明しました。
この影響は、最新の LLM で頻繁に使用される低精度浮動小数点形式によってさらに悪化します。
その結果、モデルはこれらのシーケンスにさまざまな方法で応答できなくなり、カウントやコピーなどのタスクでエラーが発生する可能性があります。
さらに、デコーダのみの Transformer 言語モデルは、入力内の特定のトークンに対する感度を失う可能性があることを示します。これは、グラフ ニューラル ネットワークにおけるオーバースカッシュというよく知られた現象に関連しています。
私たちは、現代の LLM に関する主張を裏付ける経験的な証拠を提供します。
私たちの理論は、これらの問題を改善するための簡単な解決策も示しています。
要約(オリジナル)
We study how information propagates in decoder-only Transformers, which are the architectural backbone of most existing frontier large language models (LLMs). We rely on a theoretical signal propagation analysis — specifically, we analyse the representations of the last token in the final layer of the Transformer, as this is the representation used for next-token prediction. Our analysis reveals a representational collapse phenomenon: we prove that certain distinct sequences of inputs to the Transformer can yield arbitrarily close representations in the final token. This effect is exacerbated by the low-precision floating-point formats frequently used in modern LLMs. As a result, the model is provably unable to respond to these sequences in different ways — leading to errors in, e.g., tasks involving counting or copying. Further, we show that decoder-only Transformer language models can lose sensitivity to specific tokens in the input, which relates to the well-known phenomenon of over-squashing in graph neural networks. We provide empirical evidence supporting our claims on contemporary LLMs. Our theory also points to simple solutions towards ameliorating these issues.
arxiv情報
著者 | Federico Barbero,Andrea Banino,Steven Kapturowski,Dharshan Kumaran,João G. M. Araújo,Alex Vitvitskyi,Razvan Pascanu,Petar Veličković |
発行日 | 2024-06-06 17:14:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google