Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

要約

LLM はテキストを単語に大まかに対応するトークンのシーケンスとして処理します。一般的ではない単語は複数のトークンで表されます。
ただし、個々のトークンは、それらが構成する単語や概念の意味とは意味的に無関係であることがよくあります。
たとえば、Llama-2-7b のトークナイザーは、単語「northeastern」をトークン [‘_n’、’ort’、’he’、’astern’] に分割しますが、いずれも ‘north’ や ‘ のような意味的に意味のある単位には対応しません。
東。’
同様に、「ニール・ヤング」のような名前付きエンティティや「足を骨折する」のような複数の単語の表現の全体的な意味は、それらを構成するトークンから直接推測することはできません。
機構的には、LLM はどのようにしてそのような任意のトークンのグループを有用な高レベルの表現に変換するのでしょうか?
この研究では、名前付きエンティティとマルチトークン単語の最後のトークン表現が顕著な「消去」効果を示し、以前と現在のトークンに関する情報が初期層で急速に忘れられることがわかりました。
この観察を利用して、層間のトークン表現の違いを調べることによって自己回帰 LLM の暗黙の語彙を「読み出す」方法を提案し、Llama-2-7b と Llama-3-8B に対するこの方法の結果を示します。
私たちの知る限り、これは LLM の暗黙の語彙を調査する最初の試みです。

要約(オリジナル)

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b’s tokenizer splits the word ‘northeastern’ into the tokens [‘_n’, ‘ort’, ‘he’, ‘astern’], none of which correspond to semantically meaningful units like ‘north’ or ‘east.’ Similarly, the overall meanings of named entities like ‘Neil Young’ and multi-word expressions like ‘break a leg’ cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced ‘erasure’ effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to ‘read out’ the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.

arxiv情報

著者 Sheridan Feucht,David Atkinson,Byron Wallace,David Bau
発行日 2024-10-11 16:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク