要約
最近の研究では、高レベルの意味概念が大規模な言語モデルの表現空間に「線形」にエンコードされると主張しています。
この研究では、そのような線形表現の起源を研究します。
そのために、次のトークン予測の概念ダイナミクスを抽象化して形式化するための単純な潜在変数モデルを導入します。
この形式主義を使用して、次のトークン予測目的 (クロスエントロピーを伴うソフトマックス) と勾配降下の暗黙的なバイアスが一緒になって概念の線形表現を促進することを示します。
実験では、潜在変数モデルに一致するデータから学習すると線形表現が現れることが示されており、この単純な構造が線形表現を生み出すのにすでに十分であることが確認されています。
さらに、LLaMA-2 大規模言語モデルを使用して理論のいくつかの予測を確認し、単純化されたモデルが一般化可能な洞察をもたらすという証拠を示します。
要約(オリジナル)
Recent works have argued that high-level semantic concepts are encoded ‘linearly’ in the representation space of large language models. In this work, we study the origins of such linear representations. To that end, we introduce a simple latent variable model to abstract and formalize the concept dynamics of the next token prediction. We use this formalism to show that the next token prediction objective (softmax with cross-entropy) and the implicit bias of gradient descent together promote the linear representation of concepts. Experiments show that linear representations emerge when learning from data matching the latent variable model, confirming that this simple structure already suffices to yield linear representations. We additionally confirm some predictions of the theory using the LLaMA-2 large language model, giving evidence that the simplified model yields generalizable insights.
arxiv情報
著者 | Yibo Jiang,Goutham Rajendran,Pradeep Ravikumar,Bryon Aragam,Victor Veitch |
発行日 | 2024-03-06 17:17:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google