AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages

要約

アフリカの言語は、デジタルで利用できる言語内コンテンツが非常に少ないため、質問応答システムがユーザーの情報ニーズを満たすことは困難である。このギャップを埋める手段として、母国語で回答しながら他の言語から回答コンテンツを取得する、クロスリンガル公開検索質問応答(XOR QA)システムがあります。このため、アフリカの言語に焦点を当てた初のクロスリンガルQAデータセットであるAfriQAを作成しました。AfriQAには、アフリカの10言語にわたる12,000以上のXOR QA例が含まれています。これまでのデータセットでは、主にクロスランゲージQAがターゲット言語からのカバレッジを補う言語に焦点を当てていましたが、AfriQAでは、クロスランゲージの回答コンテンツが唯一の高カバレッジの回答コンテンツのソースである言語に焦点を当てます。このため、アフリカの言語は、XOR QAの最も重要かつ現実的なユースケースの1つであると主張しています。我々の実験は、自動翻訳と多言語検索手法の性能の低さを証明するものである。全体として、AfriQAは最先端のQAモデルにとって挑戦的であることが証明されました。このデータセットによって、より公平なQA技術の開発が可能になることを期待する。

要約(オリジナル)

African languages have far less in-language content available digitally, making it challenging for question answering systems to satisfy the information needs of users. Cross-lingual open-retrieval question answering (XOR QA) systems — those that retrieve answer content from other languages while serving people in their native language — offer a means of filling this gap. To this end, we create AfriQA, the first cross-lingual QA dataset with a focus on African languages. AfriQA includes 12,000+ XOR QA examples across 10 African languages. While previous datasets have focused primarily on languages where cross-lingual QA augments coverage from the target language, AfriQA focuses on languages where cross-lingual answer content is the only high-coverage source of answer content. Because of this, we argue that African languages are one of the most important and realistic use cases for XOR QA. Our experiments demonstrate the poor performance of automatic translation and multilingual retrieval methods. Overall, AfriQA proves challenging for state-of-the-art QA models. We hope that the dataset enables the development of more equitable QA technology.

arxiv情報

著者 Odunayo Ogundepo,Tajuddeen R. Gwadabe,Clara E. Rivera,Jonathan H. Clark,Sebastian Ruder,David Ifeoluwa Adelani,Bonaventure F. P. Dossou,Abdou Aziz DIOP,Claytone Sikasote,Gilles Hacheme,Happy Buzaaba,Ignatius Ezeani,Rooweither Mabuya,Salomey Osei,Chris Emezue,Albert Njoroge Kahira,Shamsuddeen H. Muhammad,Akintunde Oladipo,Abraham Toluwase Owodunni,Atnafu Lambebo Tonja,Iyanuoluwa Shode,Akari Asai,Tunde Oluwaseyi Ajayi,Clemencia Siro,Steven Arthur,Mofetoluwa Adeyemi,Orevaoghene Ahia,Aremu Anuoluwapo,Oyinkansola Awosan,Chiamaka Chukwuneke,Bernard Opoku,Awokoya Ayodele,Verrah Otiende,Christine Mwase,Boyd Sinkala,Andre Niyongabo Rubungo,Daniel A. Ajisafe,Emeka Felix Onwuegbuzia,Habib Mbow,Emile Niyomutabazi,Eunice Mukonde,Falalu Ibrahim Lawan,Ibrahim Said Ahmad,Jesujoba O. Alabi,Martin Namukombo,Mbonu Chinedu,Mofya Phiri,Neo Putini,Ndumiso Mngoma,Priscilla A. Amuok,Ruqayya Nasir Iro,Sonia Adhiambo34
発行日 2023-05-11 15:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク