Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans

要約

言語の限界を理解することは、大規模言語モデル (LLM) が自然言語の理論として機能するための前提条件です。
一部の言語タスクにおける LLM のパフォーマンスには、人間のパフォーマンスと量的および質的な違いが見られますが、そのような違いがモデルのサイズに適しているかどうかはまだ判断されていません。
この研究では、モデルのスケーリングの重要な役割を調査し、サイズの増加によって人間とモデルの間のそのような違いが補われるかどうかを判断します。
異なるファミリーの 3 つの LLM (Bard、1,370 億パラメータ、ChatGPT-3.5、1,750 億、ChatGPT-4、1.5 兆) を、照応、中心埋め込み、比較、および負の極性を特徴とする文法性判断タスクでテストします。
N=1,200 の判断が収集され、プロンプトが繰り返し提示されたときの精度、安定性、および精度の向上についてスコアリングされます。
最高のパフォーマンスを発揮する LLM である ChatGPT-4 の結果を、同じ刺激に対する n=80 人の人間の結果と比較します。
モデルサイズの増加によりパフォーマンスが向上する可能性があることがわかりましたが、LLM は依然として人間ほど文法性 (非) に敏感ではありません。
スケーリングだけでこの問題を解決できる可能性はあるものの、可能性は低いと思われます。
我々は、生体内とコンピュータ内での言語学習を比較することによってこれらの結果を解釈し、(i) 証拠の種類、(ii) 刺激の乏しさ、(iii) 不可解な言語参照による意味論的幻覚の発生に関する 3 つの重大な違いを特定します。

要約(オリジナル)

Understanding the limits of language is a prerequisite for Large Language Models (LLMs) to act as theories of natural language. LLM performance in some language tasks presents both quantitative and qualitative differences from that of humans, however it remains to be determined whether such differences are amenable to model size. This work investigates the critical role of model scaling, determining whether increases in size make up for such differences between humans and models. We test three LLMs from different families (Bard, 137 billion parameters; ChatGPT-3.5, 175 billion; ChatGPT-4, 1.5 trillion) on a grammaticality judgment task featuring anaphora, center embedding, comparatives, and negative polarity. N=1,200 judgments are collected and scored for accuracy, stability, and improvements in accuracy upon repeated presentation of a prompt. Results of the best performing LLM, ChatGPT-4, are compared to results of n=80 humans on the same stimuli. We find that increased model size may lead to better performance, but LLMs are still not sensitive to (un)grammaticality as humans are. It seems possible but unlikely that scaling alone can fix this issue. We interpret these results by comparing language learning in vivo and in silico, identifying three critical differences concerning (i) the type of evidence, (ii) the poverty of the stimulus, and (iii) the occurrence of semantic hallucinations due to impenetrable linguistic reference.

arxiv情報

著者 Vittoria Dentella,Fritz Guenther,Evelina Leivada
発行日 2024-04-23 10:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク