PromptLink: Leveraging Large Language Models for Cross-Source Biomedical Concept Linking

要約

多様なデータ ソース間で生物医学の概念をリンク (調整) することで、さまざまな統合分析が可能になりますが、概念の命名規則に矛盾があるため、これは困難です。
この課題を克服するために、文字列照合ルール、手動で作成されたシソーラス、機械学習モデルに基づく戦略など、さまざまな戦略が開発されてきました。
ただし、これらの方法は限られた事前の生物医学的知識によって制約され、限られた量のルール、シソーラス、またはトレーニング サンプルを超えて一般化することはほとんどできません。
最近、大規模言語モデル (LLM) は、前例のない豊富な事前知識と強力なゼロショット予測能力により、さまざまな生物医学 NLP タスクで目覚ましい結果を示しています。
ただし、LLM には、高コスト、制限されたコンテキスト長、信頼性の低い予測などの問題があります。
本研究では、LLM を活用した新しい生物医学概念連携フレームワークである PromptLink を提案します。
まず、生物医学に特化した事前トレーニング済み言語モデルを採用して、LLM コンテキスト ウィンドウに適合する候補概念を生成します。
次に、LLM を利用して 2 段階のプロンプトを通じて概念をリンクします。第 1 段階のプロンプトは、概念リンク タスクのために LLM から生物医学の事前知識を引き出すことを目的とし、第 2 段階のプロンプトは LLM に自身の予測を反映させることを強制します。
信頼性をさらに高めるために。
2 つの EHR データセットと外部生物医学 KG の間の概念リンク タスクに関する実験結果は、PromptLink の有効性を示しています。
さらに、PromptLink は追加の事前知識、コンテキスト、トレーニング データに依存しない汎用フレームワークであるため、さまざまな種類のデータ ソース間で概念をリンクするのに適しています。
ソース コードは https://github.com/constantjxyz/PromptLink で入手できます。

要約(オリジナル)

Linking (aligning) biomedical concepts across diverse data sources enables various integrative analyses, but it is challenging due to the discrepancies in concept naming conventions. Various strategies have been developed to overcome this challenge, such as those based on string-matching rules, manually crafted thesauri, and machine learning models. However, these methods are constrained by limited prior biomedical knowledge and can hardly generalize beyond the limited amounts of rules, thesauri, or training samples. Recently, large language models (LLMs) have exhibited impressive results in diverse biomedical NLP tasks due to their unprecedentedly rich prior knowledge and strong zero-shot prediction abilities. However, LLMs suffer from issues including high costs, limited context length, and unreliable predictions. In this research, we propose PromptLink, a novel biomedical concept linking framework that leverages LLMs. It first employs a biomedical-specialized pre-trained language model to generate candidate concepts that can fit in the LLM context windows. Then it utilizes an LLM to link concepts through two-stage prompts, where the first-stage prompt aims to elicit the biomedical prior knowledge from the LLM for the concept linking task and the second-stage prompt enforces the LLM to reflect on its own predictions to further enhance their reliability. Empirical results on the concept linking task between two EHR datasets and an external biomedical KG demonstrate the effectiveness of PromptLink. Furthermore, PromptLink is a generic framework without reliance on additional prior knowledge, context, or training data, making it well-suited for concept linking across various types of data sources. The source code is available at https://github.com/constantjxyz/PromptLink.

arxiv情報

著者 Yuzhang Xie,Jiaying Lu,Joyce Ho,Fadi Nahab,Xiao Hu,Carl Yang
発行日 2024-05-13 06:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク