要約
英語の質問応答 (QA) データセットが広く利用できるようになったことで、自然言語処理 (NLP) 分野の進歩が大幅に促進されました。
しかし、バスク語などの少数言語に関するリソースが不足していることが、これらのコミュニティにとって大きな課題となっています。
この文脈において、既存の QA データセットの変換と調整は、この技術的なギャップを縮める上で重要な役割を果たします。
この研究では、SQuAD2.0 をバスク語に自動的に翻訳して調整することに特化した最初の取り組みである EuSQuAD を紹介し、その結果 142,000 を超える QA サンプルが作成されました。
EuSQuAD をトレーニング データとしてサポートする広範な定性分析と QA 実験を通じて、EuSQuAD の価値を実証します。
これらの実験は、人間が注釈を付けた新しいデータセットを使用して評価されます。
要約(オリジナル)
The widespread availability of Question Answering (QA) datasets in English has greatly facilitated the advancement of the Natural Language Processing (NLP) field. However, the scarcity of such resources for minority languages, such as Basque, poses a substantial challenge for these communities. In this context, the translation and alignment of existing QA datasets plays a crucial role in narrowing this technological gap. This work presents EuSQuAD, the first initiative dedicated to automatically translating and aligning SQuAD2.0 into Basque, resulting in more than 142k QA examples. We demonstrate EuSQuAD’s value through extensive qualitative analysis and QA experiments supported with EuSQuAD as training data. These experiments are evaluated with a new human-annotated dataset.
arxiv情報
著者 | Aitor García-Pablos,Naiara Perez,Montse Cuadros,Jaione Bengoetxea |
発行日 | 2024-06-04 15:43:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google