Language Models use Lookbacks to Track Beliefs

要約

言語モデル(LMS)は、特にそれらの信念が現実と異なる場合がある場合、キャラクターの信念をどのように表していますか?
この質問は、LMSの心の理論(TOM)能力を理解することの中心にあります。
因果的な調停と抽象化を使用して、キャラクターの信念について推論するLlama-3-70B-Instructの能力を分析します。
2つの文字がそれぞれ2つのオブジェクトの状態を個別に変更し、互いのアクションを知らない可能性がある単純なストーリーで構成されるデータセットを作成します。
私たちの調査では、ルックバックメカニズムと呼ばれる広範なアルゴリズムパターンが明らかになりました。これにより、LMは必要になったときに重要な情報を思い出すことができます。
LMは、それらに関するリファレンス情報を共同配置することにより、各キャラクターオブジェクト状態のトリプルを結合し、状態トークンの残留ストリームの低ランクのサブスペースにある注文ID(OIS)として表されます。
オブジェクトの状態に関するキャラクターの信念について尋ねられたとき、バインディングルックバックは対応する状態oiを取得し、回答ルックバックが状態トークンを取得します。
1つの文字が他の文字に表示されていることを指定するテキストを導入すると、LMが最初に観察された文字oisとの関係をコードする可視性IDを生成することがわかります。
可視性のルックバックでは、このIDは、観察されたキャラクターに関する情報を取得し、観察されるキャラクターの信念を更新するために使用されます。
私たちの仕事は、LMの信念追跡メカニズムに関する洞察を提供し、LMSでの逆エンジニアリングの推論に向けて一歩を踏み出しました。

要約(オリジナル)

How do language models (LMs) represent characters’ beliefs, especially when those beliefs may differ from reality? This question lies at the heart of understanding the Theory of Mind (ToM) capabilities of LMs. We analyze Llama-3-70B-Instruct’s ability to reason about characters’ beliefs using causal mediation and abstraction. We construct a dataset that consists of simple stories where two characters each separately change the state of two objects, potentially unaware of each other’s actions. Our investigation uncovered a pervasive algorithmic pattern that we call a lookback mechanism, which enables the LM to recall important information when it becomes necessary. The LM binds each character-object-state triple together by co-locating reference information about them, represented as their Ordering IDs (OIs) in low rank subspaces of the state token’s residual stream. When asked about a character’s beliefs regarding the state of an object, the binding lookback retrieves the corresponding state OI and then an answer lookback retrieves the state token. When we introduce text specifying that one character is (not) visible to the other, we find that the LM first generates a visibility ID encoding the relation between the observing and the observed character OIs. In a visibility lookback, this ID is used to retrieve information about the observed character and update the observing character’s beliefs. Our work provides insights into the LM’s belief tracking mechanisms, taking a step toward reverse-engineering ToM reasoning in LMs.

arxiv情報

著者 Nikhil Prakash,Natalie Shapira,Arnab Sen Sharma,Christoph Riedl,Yonatan Belinkov,Tamar Rott Shaham,David Bau,Atticus Geiger
発行日 2025-05-20 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク