AmQA: Amharic Question Answering Dataset

要約

質問応答 (QA) は、コンテキスト ドキュメントが与えられた自然言語テキストから簡潔な回答または回答リストを返します。
堅牢なモデルの開発を進めるために、多くのリソースが QA データセットのキュレーションに投入されます。
英語などの言語の QA データセットは急増していますが、アムハラ語には当てはまりません。
エチオピアの公用語であるアムハラ語は、世界で 2 番目に話されているセム語です。
公開または一般に利用可能なアムハラ語 QA データセットはありません。
したがって、アムハラ語 QA の研究を促進するために、最初のアムハラ語 QA (AmQA) データセットを紹介します。
私たちは、378 の Wikipedia 記事に関する 2628 の質問と回答のペアをクラウドソーシングしました。
さらに、オープンドメインの QA 研究への関心を高めるために、XLMR Large ベースのベースライン モデルを実行しています。
最も優れたベースラインは、リーダーとレトリーバーの QA および読解設定でそれぞれ 69.58 および 71.74 の F スコアを達成しました。

要約(オリジナル)

Question Answering (QA) returns concise answers or answer lists from natural language text given a context document. Many resources go into curating QA datasets to advance robust models’ development. There is a surge of QA datasets for languages like English, however, this is not true for Amharic. Amharic, the official language of Ethiopia, is the second most spoken Semitic language in the world. There is no published or publicly available Amharic QA dataset. Hence, to foster the research in Amharic QA, we present the first Amharic QA (AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia articles. Additionally, we run an XLMR Large-based baseline model to spark open-domain QA research interest. The best-performing baseline achieves an F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension settings respectively.

arxiv情報

著者 Tilahun Abedissa,Ricardo Usbeck,Yaregal Assabie
発行日 2023-11-16 12:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク