Unveiling Theory of Mind in Large Language Models: A Parallel to Single Neurons in the Human Brain

要約

最近の開発により、大規模言語モデル (LLM) は、あるレベルの心の理論 (ToM) を示すことがわかりました。これは、私たちの意識に関連し、他人の信念や視点を推測できるようにする複雑な認知能力です。
人間の ToM 能力は、背内側前頭前野 (dmPFC) ニューロンを含む、広く相互接続された脳ネットワークの神経活動に由来すると考えられていますが、LLM の ToM 能力の根底にある正確なプロセスや、人間の ToM 能力との類似点は、ほとんど不明のままです。
この研究では、ヒト ToM を支配する dmPFC ニューロンからインスピレーションを得て、同様の方法論を採用して、LLM が同等の特性を示すかどうかを調べました。
驚くべきことに、私たちの分析では、LLM 内の隠れた埋め込み (人工ニューロン) が真実または誤った信念のいずれかの試行に対して顕著な応答性を示し始めたため、この 2 つの間の顕著な類似性が明らかになり、他者の視点を表現する能力が示唆されています。
これらの人工的な埋め込み応答は、ToM タスク中の LLM のパフォーマンスと密接に相関しており、この特性はモデルのサイズに依存していました。
さらに、エンベディング全体を使用して他者の信念を正確にデコードすることができ、母集団レベルでのエンベディングの ToM 機能の存在を示しています。
まとめると、我々の発見は、ToM の特徴に応じてその活動を変更する LLM の埋め込みの新たな特性を明らかにし、人工モデルと人間の脳のニューロンとの類似性の最初の証拠を提供しました。

要約(オリジナル)

With their recent development, large language models (LLMs) have been found to exhibit a certain level of Theory of Mind (ToM), a complex cognitive capacity that is related to our conscious mind and that allows us to infer another’s beliefs and perspective. While human ToM capabilities are believed to derive from the neural activity of a broadly interconnected brain network, including that of dorsal medial prefrontal cortex (dmPFC) neurons, the precise processes underlying LLM’s capacity for ToM or their similarities with that of humans remains largely unknown. In this study, we drew inspiration from the dmPFC neurons subserving human ToM and employed a similar methodology to examine whether LLMs exhibit comparable characteristics. Surprisingly, our analysis revealed a striking resemblance between the two, as hidden embeddings (artificial neurons) within LLMs started to exhibit significant responsiveness to either true- or false-belief trials, suggesting their ability to represent another’s perspective. These artificial embedding responses were closely correlated with the LLMs’ performance during the ToM tasks, a property that was dependent on the size of the models. Further, the other’s beliefs could be accurately decoded using the entire embeddings, indicating the presence of the embeddings’ ToM capability at the population level. Together, our findings revealed an emergent property of LLMs’ embeddings that modified their activities in response to ToM features, offering initial evidence of a parallel between the artificial model and neurons in the human brain.

arxiv情報

著者 Mohsen Jamali,Ziv M. Williams,Jing Cai
発行日 2023-09-04 15:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク