Emergence of a High-Dimensional Abstraction Phase in Language Transformers

要約

言語モデル (LM) は、言語コンテキストから出力トークンへのマッピングです。
ただし、このマッピングについては、その幾何学的特性がその機能にどのように関連するかなど、まだわかっていないことが多くあります。
私たちはその分析に高レベルの幾何学的なアプローチを採用し、5 つの事前トレーニングされたトランスフォーマーベースの LM と 3 つの入力データセットにわたって、高い固有の次元性を特徴とする明確な位相を観察します。
この段階では、表現 (1) は入力の最初の完全な言語抽象化に対応します。
(2) 下流タスクに最初に実行可能に転送します。
(3) 異なる LM 間で相互に予測します。
さらに、フェーズの開始が早いほど、言語モデリングのパフォーマンスが向上することが強く予測されることがわかりました。
つまり、私たちの結果は、多くの一般的な LM アーキテクチャにおける中心的な言語処理の基礎に、中心的な高次元性フェーズがあることを示唆しています。

要約(オリジナル)

A language model (LM) is a mapping from a linguistic context to an output token. However, much remains to be known about this mapping, including how its geometric properties relate to its function. We take a high-level geometric approach to its analysis, observing, across five pre-trained transformer-based LMs and three input datasets, a distinct phase characterized by high intrinsic dimensionality. During this phase, representations (1) correspond to the first full linguistic abstraction of the input; (2) are the first to viably transfer to downstream tasks; (3) predict each other across different LMs. Moreover, we find that an earlier onset of the phase strongly predicts better language modelling performance. In short, our results suggest that a central high-dimensionality phase underlies core linguistic processing in many common LM architectures.

arxiv情報

著者 Emily Cheng,Diego Doimo,Corentin Kervadec,Iuri Macocco,Jade Yu,Alessandro Laio,Marco Baroni
発行日 2024-05-24 11:49:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク