KenSwQuAD — A Question Answering Dataset for Swahili Low Resource Language


リソースの少ない言語での質問応答データセットの必要性がこの研究の動機であり、Kencorpus スワヒリ語質問応答データセット KenSwQuAD の開発につながりました。
質問応答 (QA) データセットは、インターネット検索や対話システムなどのタスクで自然言語を機械が理解するために重要です。
機械学習システムには、この研究で開発されたゴールドスタンダードの質問応答セットなどのトレーニング データが必要です。
この研究では、ケニア言語コーパスである Kencorpus プロジェクトによって収集されたスワヒリ語テキストから QA ペアを作成するためにアノテーターが協力しました。
プロジェクトでは、合計 2,585 のテキストのうち 1,445 のテキストに少なくとも 5 つの QA ペアを付けて注釈を付け、最終的に 7,526 の QA ペアのデータセットが作成されました。
注釈付きテキストの 12.5% の品質保証セットにより、QA ペアがすべて正しく注釈付けされていることが確認されました。
セットを QA タスクに適用する概念実証により、データセットがそのようなタスクに使用できることが確認されました。
KenSwQuAD はスワヒリ語のリソース確保にも貢献しています。


The need for Question Answering datasets in low resource languages is the motivation of this research, leading to the development of Kencorpus Swahili Question Answering Dataset, KenSwQuAD. This dataset is annotated from raw story texts of Swahili low resource language, which is a predominantly spoken in Eastern African and in other parts of the world. Question Answering (QA) datasets are important for machine comprehension of natural language for tasks such as internet search and dialog systems. Machine learning systems need training data such as the gold standard Question Answering set developed in this research. The research engaged annotators to formulate QA pairs from Swahili texts collected by the Kencorpus project, a Kenyan languages corpus. The project annotated 1,445 texts from the total 2,585 texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to the QA task confirmed that the dataset can be usable for such tasks. KenSwQuAD has also contributed to resourcing of the Swahili language.


著者 Barack W. Wanjawa,Lilian D. A. Wanzare,Florence Indede,Owen McOnyango,Lawrence Muchemi,Edward Ombui
発行日 2023-07-09 14:06:02+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク