The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics

要約

共同エンティティ関連の抽出は、構造化されていないまたは半構造化されたテキストをトリプレットに変換し、大規模な知識グラフの構築を促進し、さまざまな下流のアプリケーションをサポートする上で重要なタスクです。
その重要性にもかかわらず、中国のテキスト、特に医学のような特殊なドメインにおける複雑なセマンティクスに関する研究は、依然として限られています。
このギャップに対処するために、医療テキストの複雑さをキャプチャするように設計された中国の薬物薬物相互作用データセットであるCH-DDIを紹介します。
長距離の依存関係をキャプチャする際の注意メカニズムの強度を活用すると、複雑なコンテキストセマンティック情報の抽出を強化し、エンティティの認識と関係の抽出を改善するSeaモジュールを提案します。
さらに、エンティティ認識と関係抽出の間の情報交換を促進する際の既存の方法の非効率性に対処するために、インタラクティブな融合表現モジュールを提示します。
このモジュールは、タスク間の双方向情報交換のために相互注目を集め、BILSTMを介した特徴抽出をさらに洗練します。
CH-DDIデータセットとパブリックCONLL04データセットの両方での実験結果は、モデルが強力な一般化能力を示していることを示しています。
CH-DDIデータセットでは、モデルはエンティティ認識で96.73%、関係抽出で78.43%のF1スコアを達成します。
CONLL04データセットでは、エンティティ認識精度89.54%と71.64%の関係抽出精度が得られます。

要約(オリジナル)

Joint entity-relation extraction is a critical task in transforming unstructured or semi-structured text into triplets, facilitating the construction of large-scale knowledge graphs, and supporting various downstream applications. Despite its importance, research on Chinese text, particularly with complex semantics in specialized domains like medicine, remains limited. To address this gap, we introduce the CH-DDI, a Chinese drug-drug interactions dataset designed to capture the intricacies of medical text. Leveraging the strengths of attention mechanisms in capturing long-range dependencies, we propose the SEA module, which enhances the extraction of complex contextual semantic information, thereby improving entity recognition and relation extraction. Additionally, to address the inefficiencies of existing methods in facilitating information exchange between entity recognition and relation extraction, we present an interactive fusion representation module. This module employs Cross Attention for bidirectional information exchange between the tasks and further refines feature extraction through BiLSTM. Experimental results on both our CH-DDI dataset and public CoNLL04 dataset demonstrate that our model exhibits strong generalization capabilities. On the CH-DDI dataset, our model achieves an F1-score of 96.73% for entity recognition and 78.43% for relation extraction. On the CoNLL04 dataset, it attains an entity recognition precision of 89.54% and a relation extraction accuracy of 71.64%.

arxiv情報

著者 Danni Feng,Runzhi Li,Jing Wang,Siyu Yan,Lihong Ma,Yunli Xing
発行日 2025-02-13 12:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク