PersianRAG: A Retrieval-Augmented Generation System for Persian Language

要約

大規模な事前トレーニング済み生成モデルと外部検索メカニズムを統合する検索拡張生成 (RAG) モデルは、さまざまな自然言語処理 (NLP) タスクで大きな成功を収めています。
ただし、リソースが少ない言語であるペルシア語で RAG モデルを適用すると、明確な課題が生じます。
これらの課題には主に、システムの前処理、埋め込み、取得、迅速な構築、言語モデリング、および応答評価が含まれます。
このペーパーでは、PersianRAG と呼ばれるペルシア語用の実世界 RAG システムの実装に向けた課題に取り組みます。
私たちはこれらの障害を克服するための新しいソリューションを提案し、いくつかのペルシャのベンチマーク データセットを使用してアプローチを評価します。
私たちの実験結果は、ペルシア語での質問応答タスクを強化する PersianRAG フレームワークの機能を実証しています。

要約(オリジナル)

Retrieval augmented generation (RAG) models, which integrate large-scale pre-trained generative models with external retrieval mechanisms, have shown significant success in various natural language processing (NLP) tasks. However, applying RAG models in Persian language as a low-resource language, poses distinct challenges. These challenges primarily involve the preprocessing, embedding, retrieval, prompt construction, language modeling, and response evaluation of the system. In this paper, we address the challenges towards implementing a real-world RAG system for Persian language called PersianRAG. We propose novel solutions to overcome these obstacles and evaluate our approach using several Persian benchmark datasets. Our experimental results demonstrate the capability of the PersianRAG framework to enhance question answering task in Persian.

arxiv情報

著者 Hossein Hosseini,Mohammad Sobhan Zare,Amir Hossein Mohammadi,Arefeh Kazemi,Zahra Zojaji,Mohammad Ali Nematbakhsh
発行日 2024-11-06 11:19:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク