Representational Analysis of Binding in Large Language Models

要約

エンティティの追跡は、複雑な推論に不可欠です。
コンテキスト内エンティティ追跡を実行するには、言語モデル (LM) がエンティティをその属性にバインドし (たとえば、コンテナをそのコンテンツにバインドし)、特定のエンティティの属性を呼び出す必要があります。
たとえば、「コーヒーはボックス Z にあり、石はボックス M にあり、地図はボックス H にあります」というコンテキストが与えられた場合、後で「ボックス Z にはコーヒーが入っている」と推測するには、LM は「」をバインドする必要があります。
ボックスZ」から「コーヒー」へ。
LM のバインディング動作を説明するために、Feng と Steinhardt (2023) はバインディング ID メカニズムを導入し、LM はバインディング ID (BI) と呼ばれる抽象概念を使用してエンティティと属性のペアを内部的にマークすると述べています。
ただし、エンティティのアクティブ化から BI 決定要因情報を直接取得していません。
この研究では、BI 情報のプロトタイプをローカライズすることにより、Binding ID メカニズムの新しいビューを提供します。
具体的には、LM の隠れ状態 (またはアクティブ化) に低ランクの部分空間が存在することを発見しました。これは主にエンティティと属性の順序をエンコードし、因果関係を決定するための BI のプロトタイプとして使用されます。
この部分空間を特定するために、最初の試みとして主成分分析を選択しましたが、それが効果的であることが経験的に証明されています。
さらに、部分空間内の方向に沿って表現を編集すると、LM はそれに応じて特定のエンティティを他の属性にバインドする傾向があることも発見しました。
たとえば、BI エンコード方向に沿ってアクティベーションをパッチすることにより、LM に「ボックス Z には石が含まれている」および「ボックス Z には地図が含まれている」と推測させることができます。

要約(オリジナル)

Entity tracking is essential for complex reasoning. To perform in-context entity tracking, language models (LMs) must bind an entity to its attribute (e.g., bind a container to its content) to recall attribute for a given entity. For example, given a context mentioning “The coffee is in Box Z, the stone is in Box M, the map is in Box H”, to infer “Box Z contains the coffee” later, LMs must bind “Box Z” to “coffee”. To explain the binding behaviour of LMs, Feng and Steinhardt (2023) introduce a Binding ID mechanism and state that LMs use a abstract concept called Binding ID (BI) to internally mark entity-attribute pairs. However, they have not directly captured the BI determinant information from entity activations. In this work, we provide a novel view of the Binding ID mechanism by localizing the prototype of BI information. Specifically, we discover that there exists a low-rank subspace in the hidden state (or activation) of LMs, that primarily encodes the order of entity and attribute and which is used as the prototype of BI to causally determine the binding. To identify this subspace, we choose principle component analysis as our first attempt and it is empirically proven to be effective. Moreover, we also discover that when editing representations along directions in the subspace, LMs tend to bind a given entity to other attributes accordingly. For example, by patching activations along the BI encoding direction we can make the LM to infer “Box Z contains the stone” and “Box Z contains the map”.

arxiv情報

著者 Qin Dai,Benjamin Heinzerling,Kentaro Inui
発行日 2024-09-09 09:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク