The structure of the token space for large language models

要約

大規模な言語モデルは、発話のセグメント (トークン) を高次元の周囲の潜在空間に当てはめることによって、自然言語に存在する相関構造をエンコードし、その空間でモデルが動作します。
私たちは、大規模な言語モデルの動作と制限についての基礎的な第一原理の理解を発展させるためには、このトークン部分空間の位相的および幾何学的構造を理解することが重要であると主張します。
この記事では、トークン部分空間の次元とリッチ スカラー曲率の推定量を示し、それを中程度のサイズの 3 つのオープンソース大規模言語モデル (GPT2、LLEMMA7B、および MISTRAL7B) に適用します。
これらの測定を使用する 3 つのモデルすべてで、トークン部分空間は多様体ではなく、層状多様体であり、個々の層のそれぞれでリッチ曲率が大幅に負であることがわかります。
さらに、寸法と曲率がモデルの生成の流暢性と相関していることもわかり、これらの発見がモデルの動作に影響を与えることを示唆しています。

要約(オリジナル)

Large language models encode the correlational structure present in natural language by fitting segments of utterances (tokens) into a high dimensional ambient latent space upon which the models then operate. We assert that in order to develop a foundational, first-principles understanding of the behavior and limitations of large language models, it is crucial to understand the topological and geometric structure of this token subspace. In this article, we present estimators for the dimension and Ricci scalar curvature of the token subspace, and apply it to three open source large language models of moderate size: GPT2, LLEMMA7B, and MISTRAL7B. In all three models, using these measurements, we find that the token subspace is not a manifold, but is instead a stratified manifold, where on each of the individual strata, the Ricci curvature is significantly negative. We additionally find that the dimension and curvature correlate with generative fluency of the models, which suggest that these findings have implications for model behavior.

arxiv情報

著者 Michael Robinson,Sourya Dey,Shauna Sweet
発行日 2024-10-11 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53Z50, 58Z05, cs.AI, math.DG パーマリンク