Towards a Psychology of Machines: Large Language Models Predict Human Memory

要約

大規模言語モデル (LLM) は、人間の認知における基礎が欠けているにもかかわらず、さまざまなタスクにわたって優れた能力を実証しています。
このことから、これらのモデルは単に人間の言語パターンを模倣するだけでなく、人間の認知の根底にあるメカニズムについての洞察を提供できるのだろうか、という疑問が生じます。
この研究では、言語ベースの記憶タスクにおける人間のパフォーマンスを予測する ChatGPT の能力を調査します。
テキスト理解の理論に基づいて、曖昧な文(例:「ビルはワインを飲むので、家には決して置かれていないから」)の認識は、文脈的に関連する情報を文の前に置くことで容易になるという仮説を立てます。
人間とChatGPTの両方の参加者には、ペアの文が提示されました。
2 番目の文は常に本質的に曖昧になるように設計された庭の小道の文でしたが、最初の文は適切な文脈 (例: 「ビルは慢性アルコール依存症を患っている」) か、不適切な文脈 (例: 「ビルはゴルフが好きです」) を提供していました。
私たちは、人間と ChatGPT の文の関連性の評価、庭の小道の文に対する ChatGPT の記憶力の評価、および庭の小道の文に対する人間の自発的記憶の両方を測定しました。
その結果、ChatGPT の評価と人間のパフォーマンスが驚くほど一致していることが明らかになりました。
ChatGPT の内部メカニズムが人間の認知とは大きく異なる可能性があるにもかかわらず、ChatGPT によって関連性が高く、より記憶に残ると評価された文は、実際に人間の記憶に優れています。
同義語を使用した堅牢性チェックで確認されたこの発見は、人間のパフォーマンスを正確に予測する生成 AI モデルの可能性を強調しています。
私たちは、心理理論の開発において LLM を活用し、人間の認知をより深く理解するために、これらの発見が広範に意味することについて議論します。

要約(オリジナル)

Large language models (LLMs) are demonstrating remarkable capabilities across various tasks despite lacking a foundation in human cognition. This raises the question: can these models, beyond simply mimicking human language patterns, offer insights into the mechanisms underlying human cognition? This study explores the ability of ChatGPT to predict human performance in a language-based memory task. Building upon theories of text comprehension, we hypothesize that recognizing ambiguous sentences (e.g., ‘Because Bill drinks wine is never kept in the house’) is facilitated by preceding them with contextually relevant information. Participants, both human and ChatGPT, were presented with pairs of sentences. The second sentence was always a garden-path sentence designed to be inherently ambiguous, while the first sentence either provided a fitting (e.g., ‘Bill has chronic alcoholism’) or an unfitting context (e.g., ‘Bill likes to play golf’). We measured both human’s and ChatGPT’s ratings of sentence relatedness, ChatGPT’s memorability ratings for the garden-path sentences, and humans’ spontaneous memory for the garden-path sentences. The results revealed a striking alignment between ChatGPT’s assessments and human performance. Sentences deemed more related and assessed as being more memorable by ChatGPT were indeed better remembered by humans, even though ChatGPT’s internal mechanisms likely differ significantly from human cognition. This finding, which was confirmed with a robustness check employing synonyms, underscores the potential of generative AI models to predict human performance accurately. We discuss the broader implications of these findings for leveraging LLMs in the development of psychological theories and for gaining a deeper understanding of human cognition.

arxiv情報

著者 Markus Huff,Elanur Ulakçı
発行日 2024-03-08 08:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク