BLiMP: The Benchmark of Linguistic Minimal Pairs for English


The Benchmark of Linguistic Minimal Pairs (略して BLiMP) を紹介します。これは、言語モデル (LM) が英語の主要な文法現象について何を知っているかを評価するための課題セットです。
BLiMP は 67 のサブデータセットで構成され、それぞれに構文、形態、またはセマンティクスの特定のコントラストを分離する 1000 の最小ペアが含まれています。
データは専門家が作成した文法に従って自動的に生成され、ラベルに対する人間の総同意率は 96.4% です。
n-gram、LSTM、Transformer (GPT-2 および Transformer-XL) LM を評価するために使用します。


We introduce The Benchmark of Linguistic Minimal Pairs (shortened to BLiMP), a challenge set for evaluating what language models (LMs) know about major grammatical phenomena in English. BLiMP consists of 67 sub-datasets, each containing 1000 minimal pairs isolating specific contrasts in syntax, morphology, or semantics. The data is automatically generated according to expert-crafted grammars, and aggregate human agreement with the labels is 96.4%. We use it to evaluate n-gram, LSTM, and Transformer (GPT-2 and Transformer-XL) LMs. We find that state-of-the-art models identify morphological contrasts reliably, but they struggle with semantic restrictions on the distribution of quantifiers and negative polarity items and subtle syntactic phenomena such as extraction islands.


著者 Alex Warstadt,Alicia Parrish,Haokun Liu,Anhad Mohananey,Wei Peng,Sheng-Fu Wang,Samuel R. Bowman
発行日 2023-02-14 10:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク