AmQA: Amharic Question Answering Dataset

要約

QA(QuestionAnswering)は、自然言語のテキストから、文脈のある文書を用いて、簡潔な回答や回答リストを返すものです。ロバストモデルの開発を進めるために、多くのリソースがQAデータセットのキュレーションに費やされています。英語のような言語のQAデータセットは数多く存在しますが、アムハラ語はそうではありません。エチオピアの公用語であるアムハラ語は、世界で2番目に多く話されているセム語系言語である。アムハラ語のQAデータセットは公開されておらず、一般に利用可能なものもありません。そこで、アムハラ語のQA研究を促進するために、初のアムハラ語QA(AmQA)データセットを発表する。我々は、378のWikipediaの記事から2628の質問と答えのペアをクラウドソーシングした。さらに、オープンドメインのQA研究への関心を喚起するために、XLMR Largeベースのベースラインモデルを実行した。最もパフォーマンスの高いベースラインは、読者リトリーバーQAと読解の設定でそれぞれ69.58と71.74のFスコアを達成した。

要約(オリジナル)

Question Answering (QA) returns concise answers or answer lists from natural language text given a context document. Many resources go into curating QA datasets to advance robust models’ development. There is a surge of QA datasets for languages like English, however, this is not true for Amharic. Amharic, the official language of Ethiopia, is the second most spoken Semitic language in the world. There is no published or publicly available Amharic QA dataset. Hence, to foster the research in Amharic QA, we present the first Amharic QA (AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia articles. Additionally, we run an XLMR Large-based baseline model to spark open-domain QA research interest. The best-performing baseline achieves an F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension settings respectively.

arxiv情報

著者 Tilahun Abedissa,Ricardo Usbeck,Yaregal Assabie
発行日 2023-03-06 17:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク