Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge

要約

大規模言語モデル (LLM) は、自然言語の会話を通じて膨大な量の知識を要約して提示することで、情報を取得する方法を変革しています。
しかし、LLM はトレーニング セットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
生物医学研究の分野では、最新の発見は学術界や産業界の関係者にとって鍵となるものですが、増え続ける文献コーパスの豊富さによってわかりにくくなっています(情報過多の問題)。
薬物、遺伝子、疾患などの生物医学的実体と LLM との間の新たな関連性を明らかにすることは、生物医学的科学的生産に関するロングテールの知識を獲得するという課題になります。
この課題を克服するために、外部データセットから取得したコンテキストでプロンプトを拡張することで、LLM の欠点の一部を軽減する取得拡張生成 (RAG) が提案されています。
RAG メソッドは通常、テキスト埋め込みに対する最大類似性検索によってコンテキストを選択します。
この研究では、RAG 手法では生物医学文献で過剰に表現されている概念が集中しているため、関連情報のかなりの部分が省略されていることを示します。
ナレッジ グラフを活用してこれらのクラスターをダウンサンプリングし、情報過負荷の問題を軽減する新しい情報検索方法を紹介します。
その検索パフォーマンスは、適合率と再現率の両方において類似代替手段を埋め込むよりも約 2 倍優れています。
最後に、埋め込み類似性とナレッジ グラフ検索の両方の方法を有利に組み合わせて、両方よりも優れたパフォーマンスを発揮するハイブリッド モデルを作成でき、生物医学の質問応答モデルを改善できる可能性があることを示します。

要約(オリジナル)

Large language models (LLMs) are transforming the way information is retrieved with vast amounts of knowledge being summarized and presented via natural language conversations. Yet, LLMs are prone to highlight the most frequently seen pieces of information from the training set and to neglect the rare ones. In the field of biomedical research, latest discoveries are key to academic and industrial actors and are obscured by the abundance of an ever-increasing literature corpus (the information overload problem). Surfacing new associations between biomedical entities, e.g., drugs, genes, diseases, with LLMs becomes a challenge of capturing the long-tail knowledge of the biomedical scientific production. To overcome this challenge, Retrieval Augmented Generation (RAG) has been proposed to alleviate some of the shortcomings of LLMs by augmenting the prompts with context retrieved from external datasets. RAG methods typically select the context via maximum similarity search over text embeddings. In this study, we show that RAG methods leave out a significant proportion of relevant information due to clusters of over-represented concepts in the biomedical literature. We introduce a novel information-retrieval method that leverages a knowledge graph to downsample these clusters and mitigate the information overload problem. Its retrieval performance is about twice better than embedding similarity alternatives on both precision and recall. Finally, we demonstrate that both embedding similarity and knowledge graph retrieval methods can be advantageously combined into a hybrid model that outperforms both, enabling potential improvements to biomedical question-answering models.

arxiv情報

著者 Julien Delile,Srayanta Mukherjee,Anton Van Pamel,Leonid Zhukov
発行日 2024-02-19 18:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク