Exploring Spatial Schema Intuitions in Large Language and Vision Models

要約

AI 研究では大規模言語モデル (LLM) が広く普及しているにもかかわらず、LLM における身体化の問題は未解明なままであり、感覚認識が物理的動作に直接影響を与えるロボット工学における身体化システムとは区別されています。
私たちの調査は、LLM が具体化されていない性質にもかかわらず、言語の基本的で空間的な構成要素に関する暗黙の人間の直観を効果的に捕捉するかどうかという興味深い領域をナビゲートします。
私たちは、初期の感覚運動経験を通じて開発された空間認知基盤からの洞察を採用し、3 つの心理言語実験の再現を通じて探索を導きます。
驚くべきことに、モデルの出力と人間の反応との間に相関関係が明らかになり、具体化された経験との具体的なつながりがなくても適応できることが明らかになりました。
注目すべき違いには、言語モデルの反応が二極化し、視覚言語モデルの相関が減少していることが含まれます。
この研究は、言語、空間体験、大規模な言語モデルによる計算の間の相互作用の微妙な理解に貢献します。
詳細については、https://cisnlp.github.io/Spatial_Schemas/ をご覧ください。

要約(オリジナル)

Despite the ubiquity of large language models (LLMs) in AI research, the question of embodiment in LLMs remains underexplored, distinguishing them from embodied systems in robotics where sensory perception directly informs physical action. Our investigation navigates the intriguing terrain of whether LLMs, despite their non-embodied nature, effectively capture implicit human intuitions about fundamental, spatial building blocks of language. We employ insights from spatial cognitive foundations developed through early sensorimotor experiences, guiding our exploration through the reproduction of three psycholinguistic experiments. Surprisingly, correlations between model outputs and human responses emerge, revealing adaptability without a tangible connection to embodied experiences. Notable distinctions include polarized language model responses and reduced correlations in vision language models. This research contributes to a nuanced understanding of the interplay between language, spatial experiences, and the computations made by large language models. More at https://cisnlp.github.io/Spatial_Schemas/

arxiv情報

著者 Philipp Wicke,Lennart Wachowiak
発行日 2024-05-27 14:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク