IslamicPCQA: A Dataset for Persian Multi-hop Complex Question Answering in Islamic Text Resources

要約

タイトル:IslmaicPCQA:イスラム教のテキストリソースにおけるペルシャ語マルチホップ複合質問応答のためのデータセット

要約:
– 質問応答システムにおける主要な課題の1つは、複数の情報源を使用して複雑な質問に答えることです。
– マルチホップの質問は、回答するために複数のステップの推論が必要な複雑な質問のタイプです。
– この記事では、イスラムPCQAデータセットが紹介されています。これは、非構造化情報源に基づく複雑な質問に答えるための最初のペルシャ語データセットであり、9つのイスラム百科事典から抽出された12,282の質問応答ペアで構成されています。
– このデータセットは、ホットポットQA英語データセットアプローチからインスピレーションを得て作成され、ペルシャ語の複雑さに適合するようにカスタマイズされました。
– このデータセットでの質問に答えるには、複数の段落と推論が必要です。質問は、事前知識ベースやオントロジーに限定されず、力強い推論能力を提供するために、データセットにはサポートファクトとキーセンテンスも含まれています。
– 準備されたデータセットは、幅広いイスラム教のトピックをカバーし、この主題内の複雑なペルシャ語の質問に答えることを容易にすることを目的としています。

要約(オリジナル)

Nowadays, one of the main challenges for Question Answering Systems is to answer complex questions using various sources of information. Multi-hop questions are a type of complex questions that require multi-step reasoning to answer. In this article, the IslamicPCQA dataset is introduced. This is the first Persian dataset for answering complex questions based on non-structured information sources and consists of 12,282 question-answer pairs extracted from 9 Islamic encyclopedias. This dataset has been created inspired by the HotpotQA English dataset approach, which was customized to suit the complexities of the Persian language. Answering questions in this dataset requires more than one paragraph and reasoning. The questions are not limited to any prior knowledge base or ontology, and to provide robust reasoning ability, the dataset also includes supporting facts and key sentences. The prepared dataset covers a wide range of Islamic topics and aims to facilitate answering complex Persian questions within this subject matter

arxiv情報

著者 Arash Ghafouri,Hasan Naderi,Mohammad Aghajani asl,Mahdi Firouzmandi
発行日 2023-04-23 14:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク