A suite of LMs comprehend puzzle statements as well as humans

要約

最近の主張は、大規模な言語モデル(LMS)が、最小限の複雑な英語声明を理解する際に人間をパフォーマーしていることを示唆しています(Dentella et al。、2024)。
ここでは、これらの発見を再訪し、人間のパフォーマンスは過大評価されている一方で、LLMの能力は過小評価されていると主張します。
同じ刺激を使用して、2つの条件で人間の反応を比較した前提条件の研究を報告します。1つは再読み取り(元の研究の複製)と、読み直しを制限したもの(より自然主義的理解テスト)を制限します。
再読み込みが制限されたとき(73%)、Falcon-180b-chat(76%)およびGPT-4(81%)を下回ると、人間の精度が大幅に低下しました。
新しいGPT-O1モデルは、完全な精度を実現します。
結果は、さらに、人間とモデルの両方が、潜在的に相互の行動(たとえば、キス)を含む質問によって不釣り合いに挑戦されており、モデル固有の赤字ではなく共有された実用的な感受性を示唆していることを示しています。
LLAMA-2-70Bのログ確率、自由回答形式のモデル応答の再現、および他の文の文法評価を使用した追加の分析により、モデルパフォーマンスの体系的な過小評価が明らかになります。
GPT-4Oは、迅速なフレーミングに応じて、素朴なまたは専門家の文法判断のいずれかに合わせることができることがわかります。
これらの調査結果は、LLM評価におけるより慎重な実験設計とコーディングの実践の必要性を強調しており、現在のモデルは言語理解で人間よりも本質的に弱いという仮定に挑戦します。

要約(オリジナル)

Recent claims suggest that large language models (LMs) underperform humans in comprehending minimally complex English statements (Dentella et al., 2024). Here, we revisit those findings and argue that human performance was overestimated, while LLM abilities were underestimated. Using the same stimuli, we report a preregistered study comparing human responses in two conditions: one allowed rereading (replicating the original study), and one that restricted rereading (a more naturalistic comprehension test). Human accuracy dropped significantly when rereading was restricted (73%), falling below that of Falcon-180B-Chat (76%) and GPT-4 (81%). The newer GPT-o1 model achieves perfect accuracy. Results further show that both humans and models are disproportionately challenged by queries involving potentially reciprocal actions (e.g., kissing), suggesting shared pragmatic sensitivities rather than model-specific deficits. Additional analyses using Llama-2-70B log probabilities, a recoding of open-ended model responses, and grammaticality ratings of other sentences reveal systematic underestimation of model performance. We find that GPT-4o can align with either naive or expert grammaticality judgments, depending on prompt framing. These findings underscore the need for more careful experimental design and coding practices in LLM evaluation, and they challenge the assumption that current models are inherently weaker than humans at language comprehension.

arxiv情報

著者 Adele E Goldberg,Supantho Rakshit,Jennifer Hu,Kyle Mahowald
発行日 2025-05-13 22:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク