High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models

要約

目的: 大言語モデル (LLM) の読解能力と生物医学世界の知識をスケーラブルかつ証拠に基づいた方法で活用する、高スループットの生物医学関係抽出システムを開発すること。
方法: 関係抽出タスクを、ChatGPT などの大規模言語モデルの単純な二項分類問題として定式化します。
具体的には、LLM は外部コーパスとその世界の知識に基づいて決定を行い、事実の検証に決定の理由を与えます。
この方法は半構造化ウェブ記事向けに調整されており、メインタイトルを末尾エンティティとして指定し、それをコンテキストに明示的に組み込み、潜在的な先頭エンティティが生物医学シソーラスに基づいて照合されます。
さらに、長いコンテンツはテキスト チャンクにスライスされ、追加の埋め込みモデルで埋め込まれ、取得されるため、利用可能なオープンソース LLM のコンテキスト ウィンドウ サイズ制約との互換性が確保されます。
結果: オープンソース LLM を使用して、4 つの信頼できる生物医学 Web サイトから 3 つの異なる関係タイプの 304,315 個の関係トリプレットを抽出しました。
生体医学関係の抽出に使用される基本的なパイプラインの有効性を評価するために、医療専門家によって注釈が付けられたベンチマーク データセットを厳選しました。
評価の結果、パイプラインは GPT-4 と同等の性能を発揮することがわかりました。
ケーススタディでは、半構造化ウェブ記事の生物医学関係抽出の文脈において、現代の LLM が直面する課題をさらに明らかにします。
結論: 提案された方法は、高スループットの生体医学関係抽出に LLM の強みを活用する有効性を実証しました。
その適応性は明らかであり、多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、さまざまなタイプの生物医学関係の抽出を容易にします。

要約(オリジナル)

Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models’ (LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as a simple binary classification problem for large language models such as ChatGPT. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment to factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models, ensuring compatibility with the context window size constraints of available open-source LLMs. Results: Using an open-source LLM, we extracted 304315 relation triplets of three distinct relation types from four reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease.

arxiv情報

著者 Songchi Zhou,Sheng Yu
発行日 2023-12-15 07:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク