Language Models Represent Beliefs of Self and Others

要約

心の理論 (ToM) として知られる精神状態の理解と帰属は、人間の社会的推論の基本的な能力として浮上しています。
大規模言語モデル (LLM) は特定の ToM 機能を備えているように見えますが、これらの機能の基礎となるメカニズムは依然として解明されていません。
この研究では、言語モデルの神経活性化を通じて、さまざまなエージェントの観点から信念状態を線形に解読することが可能であり、自己と他者の信念の内部表現の存在を示すことができることを発見しました。
これらの表現を操作することで、モデルの ToM パフォーマンスに劇的な変化が観察され、社会的推論プロセスにおけるモデルの重要な役割が強調されます。
さらに、私たちの発見は、さまざまな因果推論パターンを含む多様な社会的推論タスクに拡張されており、これらの表現の潜在的な一般化可能性を示唆しています。

要約(オリジナル)

Understanding and attributing mental states, known as Theory of Mind (ToM), emerges as a fundamental capability for human social reasoning. While Large Language Models (LLMs) appear to possess certain ToM abilities, the mechanisms underlying these capabilities remain elusive. In this study, we discover that it is possible to linearly decode the belief status from the perspectives of various agents through neural activations of language models, indicating the existence of internal representations of self and others’ beliefs. By manipulating these representations, we observe dramatic changes in the models’ ToM performance, underscoring their pivotal role in the social reasoning process. Additionally, our findings extend to diverse social reasoning tasks that involve different causal inference patterns, suggesting the potential generalizability of these representations.

arxiv情報

著者 Wentao Zhu,Zhining Zhang,Yizhou Wang
発行日 2024-02-28 17:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク