NorQuAD: Norwegian Question Answering Dataset

要約

タイトル:NorQuAD:ノルウェーの質問応答データセット
要約:この論文では、機械読解のための初のノルウェー語質問応答データセットであるNorQuADを紹介します。このデータセットは4,752個の手動作成質問回答ペアから成り、データの収集手順と統計情報を説明します。複数言語とノルウェー語の単一言語モデルについて、データセットでのベンチマークを行い、人間のパフォーマンスと比較します。データセットは無料で利用可能になります。

– NorQuADはノルウェー語の読解問題に利用可能な初の質問回答データセットである。
– データセットは4,752個の手動作成の質問回答ペアから成り、統計情報が含まれる。
– 複数言語とノルウェー語の単一言語モデルについてベンチマークを行い、人間のパフォーマンスと比較する。
– データセットは無料で利用可能になる。

要約(オリジナル)

In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.

arxiv情報

著者 Sardana Ivanova,Fredrik Aas Andreassen,Matias Jentoft,Sondre Wold,Lilja Øvrelid
発行日 2023-05-03 08:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク