Biomedical Relation Extraction via Adaptive Document-Relation Cross-Mapping and Concept Unique Identifier

要約

文書レベルの生物医学関係抽出 (Bio-RE) は、広範なテキスト内の生物医学エンティティ間の関係を特定することを目的としており、生物医学テキスト マイニングの重要なサブフィールドとして機能します。
既存の Bio-RE 手法は、複数の文にまたがる関係を把握するために不可欠な、文をまたいだ推論に苦労しています。
さらに、以前の方法では文書の不完全性が見落とされることが多く、外部知識の統合が欠如しており、文脈の豊かさが制限されていました。
さらに、注釈付きデータが不足しているため、モデルのトレーニングがさらに妨げられます。
大規模言語モデル (LLM) の最近の進歩により、ドキュメント レベルの Bio-RE に関する上記のすべての問題を検討するようになりました。
具体的には、LLM Adaptive Document-Relation Cross-Mapping (ADRCM) Fine-Tuning および Concept Unique Identifier (CUI) Retrieval-Augmented Generation (RAG) を介したドキュメント レベルの Bio-RE フレームワークを提案します。
まず、データ不足の問題を解決するための Iteration-of-REsummary (IoR) プロンプトを紹介します。
このように、ChatGPT をエンティティ関係に焦点を当て、合成データを反復的に調整するように誘導することで、Bio-RE タスク固有の合成データを生成できます。
次に、ADRCM 微調整を提案します。これは、さまざまなドキュメントと関係にわたるマッピングを確立し、モデルの文脈理解と文を越えた推論機能を強化する新しい微調整レシピです。
最後に、推論中に、CUI RAG と呼ばれる生物医学固有の RAG アプローチが設計されており、CUI をエンティティのインデックスとして活用し、検索範囲を狭め、関連するドキュメントのコンテキストを充実させます。
3 つの Bio-RE データセット (GDA、CDR、および BioRED) に対して行われた実験は、他の関連研究と比較することにより、提案された手法の最先端のパフォーマンスを実証します。

要約(オリジナル)

Document-Level Biomedical Relation Extraction (Bio-RE) aims to identify relations between biomedical entities within extensive texts, serving as a crucial subfield of biomedical text mining. Existing Bio-RE methods struggle with cross-sentence inference, which is essential for capturing relations spanning multiple sentences. Moreover, previous methods often overlook the incompleteness of documents and lack the integration of external knowledge, limiting contextual richness. Besides, the scarcity of annotated data further hampers model training. Recent advancements in large language models (LLMs) have inspired us to explore all the above issues for document-level Bio-RE. Specifically, we propose a document-level Bio-RE framework via LLM Adaptive Document-Relation Cross-Mapping (ADRCM) Fine-Tuning and Concept Unique Identifier (CUI) Retrieval-Augmented Generation (RAG). First, we introduce the Iteration-of-REsummary (IoRs) prompt for solving the data scarcity issue. In this way, Bio-RE task-specific synthetic data can be generated by guiding ChatGPT to focus on entity relations and iteratively refining synthetic data. Next, we propose ADRCM fine-tuning, a novel fine-tuning recipe that establishes mappings across different documents and relations, enhancing the model’s contextual understanding and cross-sentence inference capabilities. Finally, during the inference, a biomedical-specific RAG approach, named CUI RAG, is designed to leverage CUIs as indexes for entities, narrowing the retrieval scope and enriching the relevant document contexts. Experiments conducted on three Bio-RE datasets (GDA, CDR, and BioRED) demonstrate the state-of-the-art performance of our proposed method by comparing it with other related works.

arxiv情報

著者 Yufei Shang,Yanrong Guo,Shijie Hao,Richang Hong
発行日 2025-01-09 11:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク