要約
コンテキスト内の情報を正しく利用するためには、言語モデル(LM)はエンティティをその属性にバインドする必要がある。例えば、「緑色の四角」と「青色の円」を記述したコンテキストが与えられた場合、LMは形状をそれぞれの色にバインドしなければならない。我々はLM表現を解析し、バインディングIDメカニズムを特定する。バインディング問題を解くための一般的なメカニズムは、PythiaやLLaMAファミリーの十分に大きなモデルにおいて観測される。因果的介入を用いて、LMの内部活性化が、対応するエンティティや属性にバインディングIDベクトルを付加することでバインディング情報を表現していることを示す。さらに、結合IDベクトルは連続的な部分空間を形成し、結合IDベクトル間の距離はその識別可能性を反映することを示す。この結果は、大規模LMにおける一般的な文脈内推論を理解するための一歩となる。
要約(オリジナル)
To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a ‘green square’ and a ‘blue circle’, LMs must bind the shapes to their respective colors. We analyze LM representations and identify the binding ID mechanism: a general mechanism for solving the binding problem, which we observe in every sufficiently large model from the Pythia and LLaMA families. Using causal interventions, we show that LMs’ internal activations represent binding information by attaching binding ID vectors to corresponding entities and attributes. We further show that binding ID vectors form a continuous subspace, in which distances between binding ID vectors reflect their discernability. Overall, our results uncover interpretable strategies in LMs for representing symbolic knowledge in-context, providing a step towards understanding general in-context reasoning in large-scale LMs.
arxiv情報
著者 | Jiahai Feng,Jacob Steinhardt |
発行日 | 2024-05-06 10:09:48+00:00 |
arxivサイト | arxiv_id(pdf) |