Cross-Language Approach for Quranic QA

要約

質問応答システムは、限られたリソースと希少なデータを持つ言語の重大な制限に直面しているため、堅牢なモデルの開発は特に困難になります。
コーランQAシステムは、世界中の10億人以上の人々の聖なるテキストであるコーランのより深い理解を促進するため、非常に重要性を持っています。
ただし、これらのシステムは、現代の標準的なアラビア語で書かれた質問と古典的なアラビア語で書かれたコーランの詩で見つかった回答と、モデルのパフォーマンスをさらに制限する既存のデータセットの小さなサイズとの間の言語的格差を含む独自の課題に直面しています。
これらの課題に対処するために、(1)データセットの増強による言語間アプローチを採用します。マシン翻訳を通じてデータセットを拡大して充実させてアラビア語の質問を英語に変換し、質問を言い換えて言語の多様性を作成し、英語翻訳から回答を取得します。
多言語トレーニング要件に合わせてコーラン。
(2)言語モデルの微調整:バートメディウム、ロベルタベース、デバータ-V3ベース、エレクトラ – ラージ、フラン-T5、ブルーム、ファルコンなどの事前に訓練されたモデルを利用して、コーランの特定の要件に対処します
Qa。
実験結果は、この言語間アプローチがモデルのパフォーマンスを大幅に向上させることを示しています。Roberta-Baseは最高のMAP@10(0.34)とMRR(0.52)を達成し、Deberta-V3-BaseはRecall@10(0.50)およびPrecision@
10(0.24)。
これらの調査結果は、言語学的障壁を克服し、コーランQAシステムを進める際の言語間戦略の有効性を強調しています

要約(オリジナル)

Question answering systems face critical limitations in languages with limited resources and scarce data, making the development of robust models especially challenging. The Quranic QA system holds significant importance as it facilitates a deeper understanding of the Quran, a Holy text for over a billion people worldwide. However, these systems face unique challenges, including the linguistic disparity between questions written in Modern Standard Arabic and answers found in Quranic verses written in Classical Arabic, and the small size of existing datasets, which further restricts model performance. To address these challenges, we adopt a cross-language approach by (1) Dataset Augmentation: expanding and enriching the dataset through machine translation to convert Arabic questions into English, paraphrasing questions to create linguistic diversity, and retrieving answers from an English translation of the Quran to align with multilingual training requirements; and (2) Language Model Fine-Tuning: utilizing pre-trained models such as BERT-Medium, RoBERTa-Base, DeBERTa-v3-Base, ELECTRA-Large, Flan-T5, Bloom, and Falcon to address the specific requirements of Quranic QA. Experimental results demonstrate that this cross-language approach significantly improves model performance, with RoBERTa-Base achieving the highest MAP@10 (0.34) and MRR (0.52), while DeBERTa-v3-Base excels in Recall@10 (0.50) and Precision@10 (0.24). These findings underscore the effectiveness of cross-language strategies in overcoming linguistic barriers and advancing Quranic QA systems

arxiv情報

著者 Islam Oshallah,Mohamed Basem,Ali Hamdi,Ammar Mohammed
発行日 2025-01-29 07:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク