要約
この論文では、7,000 万人以上の母語話者を抱える低リソース言語であるウルドゥー語での質問応答と文章理解のための新しいデータセットである UQA を紹介します。
UQA は、大規模な英語 QA データセットである Stanford Question Answering Dataset (SQuAD2.0) を EATS (Enclose to Anchor、Translate、Seek) と呼ばれる手法を使用して翻訳することによって生成されます。この手法では、翻訳された文脈段落内の回答範囲が保持されます。
この論文では、Google 翻訳とシームレス M4T という 2 つの候補の中から最適な翻訳モデルを選択して評価するプロセスについて説明します。
この論文では、mBERT、XLM-RoBERTa、mT5 など、UQA に関するいくつかの最先端の多言語 QA モデルのベンチマークも行っており、有望な結果が報告されています。
XLM-RoBERTa-XL の場合、F1 スコアは 85.99 および 74.56 EM です。
UQA は、ウルドゥー語の多言語 NLP システムを開発およびテストし、既存のモデルの言語間での転送可能性を強化するための貴重なリソースです。
さらに、この論文では、他の言語およびドメイン向けの高品質のデータセットを作成するための EATS の有効性を実証しています。
UQA データセットとコードは、www.github.com/sameearif/UQA で公開されています。
要約(オリジナル)
This paper introduces UQA, a novel dataset for question answering and text comprehension in Urdu, a low-resource language with over 70 million native speakers. UQA is generated by translating the Stanford Question Answering Dataset (SQuAD2.0), a large-scale English QA dataset, using a technique called EATS (Enclose to Anchor, Translate, Seek), which preserves the answer spans in the translated context paragraphs. The paper describes the process of selecting and evaluating the best translation model among two candidates: Google Translator and Seamless M4T. The paper also benchmarks several state-of-the-art multilingual QA models on UQA, including mBERT, XLM-RoBERTa, and mT5, and reports promising results. For XLM-RoBERTa-XL, we have an F1 score of 85.99 and 74.56 EM. UQA is a valuable resource for developing and testing multilingual NLP systems for Urdu and for enhancing the cross-lingual transferability of existing models. Further, the paper demonstrates the effectiveness of EATS for creating high-quality datasets for other languages and domains. The UQA dataset and the code are publicly available at www.github.com/sameearif/UQA.
arxiv情報
著者 | Samee Arif,Sualeha Farid,Awais Athar,Agha Ali Raza |
発行日 | 2024-05-02 16:44:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google