Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval

要約

この研究は、イスラムの神経検索モデルの開発に焦点を当て、イスラム領域内での自然言語処理 (NLP) テクノロジーの使用を調査します。
この研究では、堅牢な XLM-R モデルを活用することにより、言語削減技術を採用して軽量のバイリンガル大規模言語モデル (LLM) を作成しました。
ドメイン適応に対する私たちのアプローチは、イスラム領域で直面する特有の課題に対処します。イスラム領域では、実質的なドメイン内コーパスはアラビア語のみに存在し、英語を含む他の言語は限られています。
この作業では、検索モデルの多段階トレーニング プロセスを利用し、MS MARCO などの大規模な検索データセットと、より小規模なドメイン内データセットを組み込んで検索パフォーマンスを向上させます。
さらに、データ拡張技術を採用し、信頼できるイスラムの情報源を関与させることにより、英語のドメイン内検索データセットを厳選しました。
このアプローチにより、ドメイン固有のデータセットの取得が強化され、さらなるパフォーマンスの向上につながります。
この調査結果は、バイリンガルのイスラム神経検索モデルにドメイン適応と多段階トレーニング方法を組み合わせることで、下流の検索タスクで単言語モデルを上回るパフォーマンスを実現できることを示唆しています。

要約(オリジナル)

This study examines the use of Natural Language Processing (NLP) technology within the Islamic domain, focusing on developing an Islamic neural retrieval model. By leveraging the robust XLM-R model, the research employs a language reduction technique to create a lightweight bilingual large language model (LLM). Our approach for domain adaptation addresses the unique challenges faced in the Islamic domain, where substantial in-domain corpora exist only in Arabic while limited in other languages, including English. The work utilizes a multi-stage training process for retrieval models, incorporating large retrieval datasets, such as MS MARCO, and smaller, in-domain datasets to improve retrieval performance. Additionally, we have curated an in-domain retrieval dataset in English by employing data augmentation techniques and involving a reliable Islamic source. This approach enhances the domain-specific dataset for retrieval, leading to further performance gains. The findings suggest that combining domain adaptation and a multi-stage training method for the bilingual Islamic neural retrieval model enables it to outperform monolingual models on downstream retrieval tasks.

arxiv情報

著者 Vera Pavlova
発行日 2025-01-17 13:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク