要約
ライフ サイエンス研究の質問応答システムは、急速な発見、進化する洞察、知識エンティティ間の複雑な相互作用を特徴としており、包括的な知識ウェアハウスと正確な情報検索を維持する上で特有の課題を抱えています。
これらの問題に対処するために、大規模言語モデル (LLM) フレームワークを備えた新しい検索拡張生成 (RAG) である BioRAG を紹介します。
私たちのアプローチは、基礎知識として 2,200 万件の科学論文の広範なコレクションを解析、インデックス付け、セグメント化することから始まり、続いてこの分野に合わせた特殊な埋め込みモデルをトレーニングします。
さらに、ドメイン固有の知識階層を組み込むことでベクトル検索プロセスを強化します。これは、各クエリとコンテキスト間の複雑な相互関係のモデル化に役立ちます。
最新の情報を必要とするクエリの場合、BioRAG は質問を分解し、検索エンジンに組み込まれた反復検索プロセスを使用して段階的に推論します。
厳密な実験により、私たちのモデルは、複数のライフ サイエンスの質問応答タスクにわたって、微調整された LLM、検索エンジンを備えた LLM、その他の科学 RAG フレームワークよりも優れたパフォーマンスを発揮することが実証されました。
要約(オリジナル)
The question-answering system for Life science research, which is characterized by the rapid pace of discovery, evolving insights, and complex interactions among knowledge entities, presents unique challenges in maintaining a comprehensive knowledge warehouse and accurate information retrieval. To address these issues, we introduce BioRAG, a novel Retrieval-Augmented Generation (RAG) with the Large Language Models (LLMs) framework. Our approach starts with parsing, indexing, and segmenting an extensive collection of 22 million scientific papers as the basic knowledge, followed by training a specialized embedding model tailored to this domain. Additionally, we enhance the vector retrieval process by incorporating a domain-specific knowledge hierarchy, which aids in modeling the intricate interrelationships among each query and context. For queries requiring the most current information, BioRAG deconstructs the question and employs an iterative retrieval process incorporated with the search engine for step-by-step reasoning. Rigorous experiments have demonstrated that our model outperforms fine-tuned LLM, LLM with search engines, and other scientific RAG frameworks across multiple life science question-answering tasks.
arxiv情報
著者 | Chengrui Wang,Qingqing Long,Meng Xiao,Xunxin Cai,Chengjun Wu,Zhen Meng,Xuezhi Wang,Yuanchun Zhou |
発行日 | 2024-08-14 09:54:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google