要約
生物医学トリプル抽出システムは、生物医学エンティティとエンティティ間の関係を自動的に抽出することを目的としています。
現在の統合情報抽出モデルは最先端のパフォーマンスを発揮しますが、複雑な生物医学文内のエンティティ間の関係を理解するという課題に直面しています。
さらに、高品質の生物医学トリプル抽出データセットが存在しないため、堅牢なトリプル抽出システムの開発の進歩が妨げられています。
これらの課題に取り組むために、我々は、生物医学トリプル抽出のための新しい検索ベースのフレームワーク、すなわち PeTailor を提案します。これは、新しい調整されたチャンク スコアラーを使用して、事前に構築された多様なチャンク データベースから関連文書を明示的に取得し、取得した情報を入力に統合します。
大規模言語モデル (LLM) を使用して、入力文に対応するトリプル (先頭エンティティ、関係、末尾エンティティ) を生成します。
さらに、より広範囲の関係タイプをカバーする、専門家による注釈付きの生物医学トリプル抽出データセットである GM-CIHT を紹介します。
実験結果は、私たちが提案した PeTailor 手法が GM-CIHT および 2 つの標準的な生物医学トリプル抽出データセットで最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. While current unified information extraction models showcase state-of-the-art performance, they face challenges in understanding relationships between entities within intricate biomedical sentences. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To tackle these challenges, we propose a novel retrieval-based framework for biomedical triple extraction, namely PeTailor, which explicitly retrieves the relevant document from our pre-built diverse chunk database using a novel tailored chunk scorer and integrates the retrieved information into the input of a Large Language Model (LLM) to generate the corresponding triple (head entity, relation, tail entity) for the input sentence. Additionally, we present GM-CIHT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types. Experimental results show that our proposed PeTailor method achieves state-of-the-art performance on GM-CIHT and two standard biomedical triple extraction datasets
arxiv情報
著者 | Mingchen Li,M. Chen,Huixue Zhou,Halil Kilicoglu,Rui Zhang |
発行日 | 2024-02-12 17:05:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google