要約
最近、検索拡張生成 (RAG) が自然言語処理の強力な技術として登場し、検索ベースのモデルと生成ベースのモデルの長所を組み合わせてテキスト生成タスクを強化します。
しかし、独自の特性とリソースの制約を持つ言語であるアラビア語での RAG の応用は、まだ研究されていません。
この文書では、アラビア語テキストに対する RAG の実装と評価に関する包括的なケーススタディを紹介します。
この研究では、アラビア語のコンテキストで何が機能し、何が機能しないかを調査するために、検索段階でさまざまな意味埋め込みモデルを調査し、生成段階でいくつかの LLM を調査することに焦点を当てています。
この研究では、検索段階におけるドキュメント方言とクエリ方言の間の差異の問題にも触れています。
結果は、既存のセマンティック埋め込みモデルと LLM を効果的に使用してアラビア語 RAG パイプラインを構築できることを示しています。
要約(オリジナル)
Recently, Retrieval Augmented Generation (RAG) has emerged as a powerful technique in natural language processing, combining the strengths of retrieval-based and generation-based models to enhance text generation tasks. However, the application of RAG in Arabic, a language with unique characteristics and resource constraints, remains underexplored. This paper presents a comprehensive case study on the implementation and evaluation of RAG for Arabic text. The work focuses on exploring various semantic embedding models in the retrieval stage and several LLMs in the generation stage, in order to investigate what works and what doesn’t in the context of Arabic. The work also touches upon the issue of variations between document dialect and query dialect in the retrieval stage. Results show that existing semantic embedding models and LLMs can be effectively employed to build Arabic RAG pipelines.
arxiv情報
著者 | Samhaa R. El-Beltagy,Mohamed A. Abdallah |
発行日 | 2024-08-14 10:03:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google