RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs

要約

最小ペアは、言語モデルの文法知識を評価するための確立されたアプローチです。
しかし、最小ペアに関する既存のリソースは限られた数の言語に対応しており、言語固有の文法現象の多様性に欠けています。
この論文では、ロシア語言語最小ペア ベンチマーク (RuBLiMP) を紹介します。これには、文法性が異なり、形態学的、統語論的、または意味論的な現象を分離する 45,000 個の文のペアが含まれます。
言語的最小ペアの既存のベンチマークとは対照的に、RuBLiMP は、オープン テキスト コーパスから自動的に注釈が付けられた文に言語的摂動を適用し、テスト データを注意深くキュレートすることによって作成されます。
データ収集プロトコルについて説明し、さまざまなシナリオで 25 の言語モデルを評価した結果を示します。
広く使用されているロシア語の言語モデルは、形態論的および合意指向の対比には敏感であるが、構造的関係、否定、他動性、時制の理解を必要とする現象に関しては人間に劣っていることがわかりました。
RuBLiMP、コードベース、およびその他の資料は公開されています。

要約(オリジナル)

Minimal pairs are a well-established approach to evaluating the grammatical knowledge of language models. However, existing resources for minimal pairs address a limited number of languages and lack diversity of language-specific grammatical phenomena. This paper introduces the Russian Benchmark of Linguistic Minimal Pairs (RuBLiMP), which includes 45k pairs of sentences that differ in grammaticality and isolate a morphological, syntactic, or semantic phenomenon. In contrast to existing benchmarks of linguistic minimal pairs, RuBLiMP is created by applying linguistic perturbations to automatically annotated sentences from open text corpora and carefully curating test data. We describe the data collection protocol and present the results of evaluating 25 language models in various scenarios. We find that the widely used language models for Russian are sensitive to morphological and agreement-oriented contrasts but fall behind humans on phenomena requiring understanding of structural relations, negation, transitivity, and tense. RuBLiMP, the codebase, and other materials are publicly available.

arxiv情報

著者 Ekaterina Taktasheva,Maxim Bazhukov,Kirill Koncha,Alena Fenogenova,Ekaterina Artemova
発行日 2024-06-27 14:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク