Large language models predict human sensory judgments across six modalities

要約

言語から知覚世界をどの程度復元できるかを決定することは、哲学と認知科学における長年の課題です。
我々は、最先端の大規模言語モデルが、言語から抽出できる知覚情報の量に下限を与えることで、この問題に対する新たな洞察を解き放つことができることを示します。
具体的には、6 つの精神物理学的データセットにわたる GPT モデルからペアごとの類似性の判断を導き出します。
私たちは、その判断がすべての領域にわたって人間のデータと有意に相関していることを示し、カラー ホイールやピッチ スパイラルなどのよく知られた表現を復元します。
驚くべきことに、視覚と言語に関して共同トレーニングされたモデル (GPT-4) が必ずしも視覚モダリティに特有の改善につながるわけではないことがわかりました。
特定の言語が知覚に及ぼす影響を研究するために、モデルを多言語の色の名前付けタスクにも適用します。
私たちは、GPT-4 が英語とロシア語の言語間の差異を再現し、言語と知覚の相互作用を明らかにしていることを発見しました。

要約(オリジナル)

Determining the extent to which the perceptual world can be recovered from language is a longstanding problem in philosophy and cognitive science. We show that state-of-the-art large language models can unlock new insights into this problem by providing a lower bound on the amount of perceptual information that can be extracted from language. Specifically, we elicit pairwise similarity judgments from GPT models across six psychophysical datasets. We show that the judgments are significantly correlated with human data across all domains, recovering well-known representations like the color wheel and pitch spiral. Surprisingly, we find that a model (GPT-4) co-trained on vision and language does not necessarily lead to improvements specific to the visual modality. To study the influence of specific languages on perception, we also apply the models to a multilingual color-naming task. We find that GPT-4 replicates cross-linguistic variation in English and Russian illuminating the interaction of language and perception.

arxiv情報

著者 Raja Marjieh,Ilia Sucholutsky,Pol van Rijn,Nori Jacoby,Thomas L. Griffiths
発行日 2023-06-15 17:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク