要約
大規模言語モデルは、その優れた機能にもかかわらず、驚くべき予測不可能な方法で失敗することが知られています。
彼らの言語の真の「理解」を評価することは、彼らがトレーニングに使用されている広範な Web スケールのデータのため、特に困難です。
したがって、構築文法 (CxG) を活用して、LLM の自然言語理解 (NLU) を体系的に評価するための評価を構築します。構築文法 (CxG) は、構築 (Cxns) として知られる言語要素によって捉えられる意味についての洞察を提供します。
CxG は、ターゲットを絞った評価セットを構築するための理論的基礎を提供するため、この目的に適しています。
これらのデータセットは、トレーニング前のデータには現れそうにないものの、直感的で人間にとって理解しやすい例を含むように慎重に構築されており、より的を絞った信頼性の高い評価が可能になります。
私たちの実験は、8 つの固有の Cxn を通じて伝達される根本的な意味に対する LLM の理解を人間の理解と比較することにより、下流の自然言語推論と推論タスクに焦点を当てています。
結果は、テスト文がトレーニング前のデータと類似していない場合に示されるように、LLM は構造情報についてある程度の知識を示している一方で、GPT-o1 を含む最新のモデルでさえ、これらの Cxn によって伝達される抽象的な意味に苦戦していることを示しています。
私たちは、このようなケースは真の言語理解のより正確なテストを提供し、LLM の意味論的能力の重要な制限を強調すると主張します。
私たちは、新しいデータセットと、プロンプトやモデル応答を含む関連する実験データを公開しています。
要約(オリジナル)
Large Language Models, despite their significant capabilities, are known to fail in surprising and unpredictable ways. Evaluating their true `understanding’ of language is particularly challenging due to the extensive web-scale data they are trained on. Therefore, we construct an evaluation to systematically assess natural language understanding (NLU) in LLMs by leveraging Construction Grammar (CxG), which provides insights into the meaning captured by linguistic elements known as constructions (Cxns). CxG is well-suited for this purpose because provides a theoretical basis to construct targeted evaluation sets. These datasets are carefully constructed to include examples which are unlikely to appear in pre-training data, yet intuitive and easy for humans to understand, enabling a more targeted and reliable assessment. Our experiments focus on downstream natural language inference and reasoning tasks by comparing LLMs’ understanding of the underlying meanings communicated through 8 unique Cxns with that of humans. The results show that while LLMs demonstrate some knowledge of constructional information, even the latest models including GPT-o1 struggle with abstract meanings conveyed by these Cxns, as demonstrated in cases where test sentences are dissimilar to their pre-training data. We argue that such cases provide a more accurate test of true language understanding, highlighting key limitations in LLMs’ semantic capabilities. We make our novel dataset and associated experimental data including prompts and model responses publicly available.
arxiv情報
著者 | Wesley Scivetti,Melissa Torgbi,Austin Blodgett,Mollie Shichman,Taylor Hudson,Claire Bonial,Harish Tayyar Madabushi |
発行日 | 2025-01-08 18:15:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google