Does Conceptual Representation Require Embodiment? Insights From Large Language Models

要約

言語だけで、複雑な概念はどの程度生み出せるのだろうか、それとも体現された経験が不可欠なのだろうか。最近の大規模言語モデル(LLM)の進歩は、この疑問に対する新たな視点を提供してくれる。LLMは限定されたモダリティで訓練されるが、多様な心理的タスクにおいて人間と同様のパフォーマンスを示す。我々の研究では、人間とChatGPT(GPT-3.5とGPT-4)の間で、4,442の語彙概念の表現を、感情、顕著性、心的視覚化、感覚、運動経験の5つの重要な領域を含む多次元にわたって比較した。我々は2つの主要な発見を確認した:1)両モデルとも、非感覚運動領域では人間の表現と強く一致するが、感覚・運動領域では遅れており、GPT-4はGPT-3.5を上回っている。2)GPT-4の利益は、追加的な視覚学習と関連しており、触覚やイメージしやすさなどの関連する次元にも利益をもたらすようである。これらの結果は、言語を単独で使用することの限界と、多様なモダリティの入力を統合することで、より人間に近い概念表現が可能になることを強調している。

要約(オリジナル)

To what extent can language alone give rise to complex concepts, or is embodied experience essential? Recent advancements in large language models (LLMs) offer fresh perspectives on this question. Although LLMs are trained on restricted modalities, they exhibit human-like performance in diverse psychological tasks. Our study compared representations of 4,442 lexical concepts between humans and ChatGPTs (GPT-3.5 and GPT-4) across multiple dimensions, including five key domains: emotion, salience, mental visualization, sensory, and motor experience. We identify two main findings: 1) Both models strongly align with human representations in non-sensorimotor domains but lag in sensory and motor areas, with GPT-4 outperforming GPT-3.5; 2) GPT-4’s gains are associated with its additional visual learning, which also appears to benefit related dimensions like haptics and imageability. These results highlight the limitations of language in isolation, and that the integration of diverse modalities of inputs leads to a more human-like conceptual representation.

arxiv情報

著者 Qihui Xu,Yingying Peng,Samuel A. Nastase,Martin Chodorow,Minghua Wu,Ping Li
発行日 2023-12-01 13:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク