On the Geometry of Semantics in Next-token Prediction

要約

現代の言語モデルは、次のトークン予測(NTP)のみを通じて訓練されているにもかかわらず、言語的意味をキャプチャする顕著な能力を示しています。
この概念的にシンプルなトレーニング目標により、モデルが潜在的なセマンティックおよび文法の概念を抽出およびエンコードする方法を調査します。
我々の分析により、NTP最適化は、次の単語の共起パターンをキャプチャする中心的なデータスパーシティマトリックスの特異値分解(SVD)因子を介して概念をエンコードするようにモデルを暗黙的にガイドすることが明らかになりました。
モデルはこのマトリックスを明示的に構築することはありませんが、学習された単語とコンテキストの埋め込みは、それを効果的に要因にして言語構造をキャプチャします。
最も重要なSVD因子は、トレーニング中に最初に学習され、埋め込みのスペクトルクラスタリングの使用を動機付けて、クラシックKマーンと概念の解釈によって直接動機付けられた新しいオルサンベースの方法の両方を含む、人間の解釈可能なセマンティクスを特定します。
全体として、私たちの作業は分布セマンティクス、神経崩壊の幾何学、およびニューラルネットワークトレーニングのダイナミクスを橋渡しし、NTPの暗黙的バイアスが言語モデルの意味表現の出現をどのように形成するかについての洞察を提供します。

要約(オリジナル)

Modern language models demonstrate a remarkable ability to capture linguistic meaning despite being trained solely through next-token prediction (NTP). We investigate how this conceptually simple training objective leads models to extract and encode latent semantic and grammatical concepts. Our analysis reveals that NTP optimization implicitly guides models to encode concepts via singular value decomposition (SVD) factors of a centered data-sparsity matrix that captures next-word co-occurrence patterns. While the model never explicitly constructs this matrix, learned word and context embeddings effectively factor it to capture linguistic structure. We find that the most important SVD factors are learned first during training, motivating the use of spectral clustering of embeddings to identify human-interpretable semantics, including both classical k-means and a new orthant-based method directly motivated by our interpretation of concepts. Overall, our work bridges distributional semantics, neural collapse geometry, and neural network training dynamics, providing insights into how NTP’s implicit biases shape the emergence of meaning representations in language models.

arxiv情報

著者 Yize Zhao,Christos Thrampoulidis
発行日 2025-05-13 08:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク