要約
大規模言語モデル (LLM) は人間のような言語一般化を行いますか?
デンテラら。
(2023) (‘DGL’) は、いくつかの LLM (「次の文は英語で文法的に正しいですか?」) に 80 の英語文の文法性の判断を引き出すよう促し、LLM が「はい応答バイアス」と「区別の失敗」を示していると結論付けています。
非文法的な文から文法的な文へ。
私たちは確立された手法を使用して LLM のパフォーマンスを再評価し、DGL のデータが実際に LLM が人間の行動をどの程度うまく捉えているかを示す証拠を提供していることを発見しました。
モデルは全体的に高い精度を達成するだけでなく、人間の言語的判断のきめ細かい変動も捕捉します。
要約(オリジナル)
Do large language models (LLMs) make human-like linguistic generalizations? Dentella et al. (2023) (‘DGL’) prompt several LLMs (‘Is the following sentence grammatically correct in English?’) to elicit grammaticality judgments of 80 English sentences, concluding that LLMs demonstrate a ‘yes-response bias’ and a ‘failure to distinguish grammatical from ungrammatical sentences’. We re-evaluate LLM performance using well-established practices and find that DGL’s data in fact provide evidence for just how well LLMs capture human behaviors. Models not only achieve high accuracy overall, but also capture fine-grained variation in human linguistic judgments.
arxiv情報
著者 | Jennifer Hu,Kyle Mahowald,Gary Lupyan,Anna Ivanova,Roger Levy |
発行日 | 2024-08-30 14:43:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google