要約
The Benchmark of Linguistic Minimal Pairs (略して BLiMP) を紹介します。これは、言語モデル (LM) が英語の主要な文法現象について何を知っているかを評価するための課題セットです。
BLiMP は 67 のサブデータセットで構成され、それぞれに構文、形態、またはセマンティクスの特定のコントラストを分離する 1000 の最小ペアが含まれています。
データは専門家が作成した文法に従って自動的に生成され、ラベルに対する人間の総同意率は 96.4% です。
n-gram、LSTM、Transformer (GPT-2 および Transformer-XL) LM を評価するために使用します。
最先端のモデルは形態的コントラストを確実に識別することがわかっていますが、量指定子と負の極性項目の分布に関する意味上の制限や、抽出アイランドなどの微妙な構文現象に苦労しています。
要約(オリジナル)
We introduce The Benchmark of Linguistic Minimal Pairs (shortened to BLiMP), a challenge set for evaluating what language models (LMs) know about major grammatical phenomena in English. BLiMP consists of 67 sub-datasets, each containing 1000 minimal pairs isolating specific contrasts in syntax, morphology, or semantics. The data is automatically generated according to expert-crafted grammars, and aggregate human agreement with the labels is 96.4%. We use it to evaluate n-gram, LSTM, and Transformer (GPT-2 and Transformer-XL) LMs. We find that state-of-the-art models identify morphological contrasts reliably, but they struggle with semantic restrictions on the distribution of quantifiers and negative polarity items and subtle syntactic phenomena such as extraction islands.
arxiv情報
| 著者 | Alex Warstadt,Alicia Parrish,Haokun Liu,Anhad Mohananey,Wei Peng,Sheng-Fu Wang,Samuel R. Bowman |
| 発行日 | 2023-02-14 10:33:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google