Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization

要約

大規模言語モデル(LLM)は、大規模なコーパスで事前に学習され、質問応答(QA)のような多くの一般的な自然言語処理(NLP)タスクで優れている。その高度な言語能力にもかかわらず、ドメインに特化した知識集約的なタスクになると、LLMは幻覚、知識カットオフ、知識帰属の欠如に悩まされる。さらに、LLMの固有知識を高度に特殊なドメインに合わせて微調整することは、高価で時間のかかるプロセスである。検索支援生成(RAG)プロセスは、あらかじめ決められたオントロジーを参照することで、LLMの応答を最適化できる方法として最近登場した。知識グラフ(KG)オントロジーをRAGに用いることで、情報を構造的に保存する関連部分グラフを考慮することにより、QA精度が向上することが示されている。本論文では、SMART-SLICを紹介する。SMART-SLICは、RAGとKGを統合し、事実のドメイン固有情報を格納するベクトルストア(VS)を備えた、ドメイン固有性の高いLLMフレームワークである。重要なことは、KGの幻覚を避けるために、LLMを使わずに、NLP、データマイニング、非負テンソル分解と自動モデル選択によって、これらの高度にドメインに特化したKGとVSを構築することである。私たちのRAGとドメイン固有:(i)KG(構造化情報を含む)、(ii)VS(非構造化情報を含む)を組み合わせることで、情報源を特定し、幻覚を軽減し、微調整の必要性を減らし、ドメイン固有性の高い質問応答タスクに秀でたドメイン固有チャットボットの開発が可能になる。我々はSMART-SLICを思考連鎖型プロンプトエージェントと組み合わせている。このフレームワークは、どのような特定の、あるいは特殊なドメインにも適応できるように一般化できるように設計されている。本稿では、マルウェア解析と異常検知に関する科学論文のコーパスを用いて、我々のフレームワークの質問応答能力を実証する。

要約(オリジナル)

Large Language Models (LLMs) are pre-trained on large-scale corpora and excel in numerous general natural language processing (NLP) tasks, such as question answering (QA). Despite their advanced language capabilities, when it comes to domain-specific and knowledge-intensive tasks, LLMs suffer from hallucinations, knowledge cut-offs, and lack of knowledge attributions. Additionally, fine tuning LLMs’ intrinsic knowledge to highly specific domains is an expensive and time consuming process. The retrieval-augmented generation (RAG) process has recently emerged as a method capable of optimization of LLM responses, by referencing them to a predetermined ontology. It was shown that using a Knowledge Graph (KG) ontology for RAG improves the QA accuracy, by taking into account relevant sub-graphs that preserve the information in a structured manner. In this paper, we introduce SMART-SLIC, a highly domain-specific LLM framework, that integrates RAG with KG and a vector store (VS) that store factual domain specific information. Importantly, to avoid hallucinations in the KG, we build these highly domain-specific KGs and VSs without the use of LLMs, but via NLP, data mining, and nonnegative tensor factorization with automatic model selection. Pairing our RAG with a domain-specific: (i) KG (containing structured information), and (ii) VS (containing unstructured information) enables the development of domain-specific chat-bots that attribute the source of information, mitigate hallucinations, lessen the need for fine-tuning, and excel in highly domain-specific question answering tasks. We pair SMART-SLIC with chain-of-thought prompting agents. The framework is designed to be generalizable to adapt to any specific or specialized domain. In this paper, we demonstrate the question answering capabilities of our framework on a corpus of scientific publications on malware analysis and anomaly detection.

arxiv情報

著者 Ryan C. Barron,Ves Grantcharov,Selma Wanna,Maksim E. Eren,Manish Bhattarai,Nicholas Solovyev,George Tompkins,Charles Nicholas,Kim Ø. Rasmussen,Cynthia Matuszek,Boian S. Alexandrov
発行日 2024-10-03 17:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.SE パーマリンク