Behavioral estimates of conceptual structure are robust across tasks in humans but not large language models


【タイトル】- 人間では行動的概念構造の評価はタスクにかかわらず頑健だが、大規模な言語モデルではそうではない

【要約】- 言語のニューラルネットワークモデルは、心と脳の概念表現に関する仮説を開発するためのツールとして長年利用されてきました。多くの年月、そのような利用は、単語のベクトル空間表現を抽出し、これらの間の距離を使用して、さまざまな意味的タスクで人間の行動を予測または理解することを含んでいました。しかし、現代の言語AIでは、ほぼ同じ方法を用いて、人間の参加者に一般的に使用される方法に倣って、概念表現の潜在的構造を詳しく調査することができます。この研究では、認知心理学から借用された2つの一般的な手法を使用して、人間とよく知られたAIであるGPT-3のDaVinciバリアントの両方で、語彙-意味的構造を評価し比較します。人間では、文化、言語、評価方法の違いにもかかわらず、概念構造は頑健であることを示します。AIの行動からの構造の推定は、個別には人間の行動から推定された構造とかなり一致していますが、生成された応答に依存するため、2つのタスクで同じモデルによって生成された応答は、人間の構造推定よりも一致しない推定を与えます。結果は、現代のAIに内在する知識が人間の認知と異なる重要な方法を示唆しています。

– 言語のニューラルネットワークモデルは、心と脳の概念表現に関する仮説の開発に使用される。
– しかし、大規模な言語AIでも、人間の参加者に一般的に使用される方法を借用して、概念表現の潜在的構造を調査することができる。
– この研究では、2つの一般的な手法を使用して、人間とGPT-3のDaVinciバリアントの両方で、語彙-意味的構造を評価し比較する。
– 人間では、文化、言語、評価方法の違いにもかかわらず、概念構造は頑健であることを示す。
– AIから推定される構造は、人間の推定から派生した構造とかなり一致しているが、生成された応答に依存するため、同じモデルによって生成された2つのタスク間の応答には一致しない推定がある。
– 結果は、現代のAIに内在する知識が人間の認知と異なる可能性があることを示唆している。


Neural network models of language have long been used as a tool for developing hypotheses about conceptual representation in the mind and brain. For many years, such use involved extracting vector-space representations of words and using distances among these to predict or understand human behavior in various semantic tasks. In contemporary language AIs, however, it is possible to interrogate the latent structure of conceptual representations using methods nearly identical to those commonly used with human participants. The current work uses two common techniques borrowed from cognitive psychology to estimate and compare lexical-semantic structure in both humans and a well-known AI, the DaVinci variant of GPT-3. In humans, we show that conceptual structure is robust to differences in culture, language, and method of estimation. Structures estimated from AI behavior, while individually fairly consistent with those estimated from human behavior, depend much more upon the particular task used to generate behavior responses–responses generated by the very same model in the two tasks yield estimates of conceptual structure that cohere less with one another than do human structure estimates. The results suggest one important way that knowledge inhering in contemporary AIs can differ from human cognition.


著者 Siddharth Suresh,Lisa Padua,Kushin Mukherjee,Timothy T Rogers
発行日 2023-04-05 21:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク