要約
言語モデル(LM)は、言語のコンテキストから出力トークンへのマッピングです。
ただし、この幾何学的特性がその機能にどのように関連するかを含め、このマッピングについては多くのことがわかっています。
5つの事前に訓練されたトランスベースのLMSと3つの入力データセットにわたって、その分析に対する高レベルの幾何学的アプローチを採用します。
この段階では、表現(1)は、入力の最初の完全な言語抽象化に対応しています。
(2)下流タスクに最初に転送する最初のタスク。
(3)異なるLMSで相互に予測します。
さらに、フェーズの以前の開始は、より良い言語モデリングのパフォーマンスを強く予測することがわかります。
要するに、我々の結果は、中心的な高次元性フェーズが、多くの一般的なLMアーキテクチャにおけるコア言語処理の根底にあることを示唆しています。
要約(オリジナル)
A language model (LM) is a mapping from a linguistic context to an output token. However, much remains to be known about this mapping, including how its geometric properties relate to its function. We take a high-level geometric approach to its analysis, observing, across five pre-trained transformer-based LMs and three input datasets, a distinct phase characterized by high intrinsic dimensionality. During this phase, representations (1) correspond to the first full linguistic abstraction of the input; (2) are the first to viably transfer to downstream tasks; (3) predict each other across different LMs. Moreover, we find that an earlier onset of the phase strongly predicts better language modelling performance. In short, our results suggest that a central high-dimensionality phase underlies core linguistic processing in many common LM architectures.
arxiv情報
著者 | Emily Cheng,Diego Doimo,Corentin Kervadec,Iuri Macocco,Jade Yu,Alessandro Laio,Marco Baroni |
発行日 | 2025-04-30 16:06:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google