Leveraging Domain Adaptation and Data Augmentation to Improve Qur’anic IR in English and Arabic

要約

この研究では、アラビア語と英語でコーラン情報検索 (IR) の問題に取り組みます。
私たちは、ニューラル IR における最新の最先端の手法を使用して、このタスクにもっと効率的に取り組むのに何が役立つかを研究しています。
検索モデルのトレーニングには大量のデータが必要ですが、ドメイン内でのトレーニングではデータを取得するのが困難です。
したがって、大量の一般的なドメイン データのトレーニングから開始し、その後ドメイン内データのトレーニングを続けます。
ドメイン内データの不足に対処するために、データ拡張技術を採用しました。これにより、MRR@10 および NDCG@5 メトリクスの結果が大幅に向上し、英語とアラビア語の両方でコーラン IR の最先端を確立しました。

英語の IR タスクにはイスラム教のコーパスとドメイン固有モデルが存在しないため、このリソース不足に対処し、イスラム教コーパスの編集とドメイン固有言語モデル (LM) の事前トレーニングの予備的な手順を実行する動機となりました。これは改善に役立ちました。
ドメイン固有の LM を共有バックボーンとして使用する取得モデルのパフォーマンス。
私たちはアラビア語のいくつかの言語モデル (LM) を検討し、コーランの IR タスクを効率的に処理する言語モデルを選択しました。
成功した実験を英語からアラビア語に移行することに加えて、検索モデルのトレーニングに使用される一般的なドメイン データセットの不足を補うために、アラビア語の検索タスクを使用した追加の実験を実施しました。
英語とアラビア語を組み合わせたコーランの IR タスクを処理することで、比較を強化し、モデルや言語間で貴重な洞察を共有できるようになりました。

要約(オリジナル)

In this work, we approach the problem of Qur’anic information retrieval (IR) in Arabic and English. Using the latest state-of-the-art methods in neural IR, we research what helps to tackle this task more efficiently. Training retrieval models requires a lot of data, which is difficult to obtain for training in-domain. Therefore, we commence with training on a large amount of general domain data and then continue training on in-domain data. To handle the lack of in-domain data, we employed a data augmentation technique, which considerably improved results in MRR@10 and NDCG@5 metrics, setting the state-of-the-art in Qur’anic IR for both English and Arabic. The absence of an Islamic corpus and domain-specific model for IR task in English motivated us to address this lack of resources and take preliminary steps of the Islamic corpus compilation and domain-specific language model (LM) pre-training, which helped to improve the performance of the retrieval models that use the domain-specific LM as the shared backbone. We examined several language models (LMs) in Arabic to select one that efficiently deals with the Qur’anic IR task. Besides transferring successful experiments from English to Arabic, we conducted additional experiments with retrieval task in Arabic to amortize the scarcity of general domain datasets used to train the retrieval models. Handling Qur’anic IR task combining English and Arabic allowed us to enhance the comparison and share valuable insights across models and languages.

arxiv情報

著者 Vera Pavlova
発行日 2023-12-05 14:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク