NoCoLA: The Norwegian Corpus of Linguistic Acceptability

要約

近年、ノルウェー語の大規模な言語モデルが急増していますが、ノルウェー語の文法性の理解を評価するツールが不足しています。
このタスクのために、2 つの新しいノルウェー データセットを紹介します。
NoCoLA_class は教師ありバイナリ分類タスクであり、その目的は許容可能な文と許容できない文を区別することです。
一方、NoCoLA_zero は、完全にゼロショットの方法で、つまり追加のトレーニングを行わずに、言語モデルの文法的判断を評価するための純粋な診断タスクです。
この論文では、両方のデータセットを詳細に説明し、さまざまな言語モデルにそれらを使用する方法を示し、既存のノルウェー言語モデルの比較研究を行います。

要約(オリジナル)

While there has been a surge of large language models for Norwegian in recent years, we lack any tool to evaluate their understanding of grammaticality. We present two new Norwegian datasets for this task. NoCoLA_class is a supervised binary classification task where the goal is to discriminate between acceptable and non-acceptable sentences. On the other hand, NoCoLA_zero is a purely diagnostic task for evaluating the grammatical judgement of a language model in a completely zero-shot manner, i.e. without any further training. In this paper, we describe both datasets in detail, show how to use them for different flavors of language models, and conduct a comparative study of the existing Norwegian language models.

arxiv情報

著者 Matias Jentoft,David Samuel
発行日 2023-06-13 14:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク