BioREx: Improving Biomedical Relation Extraction by Leveraging Heterogeneous Datasets

要約

生物医学関係抽出 (RE) は、フリーテキストから生物医学概念間の関係を自動的に特定し、特徴付けるタスクです。
RE は生物医学自然言語処理 (NLP) 研究の中心的なタスクであり、文献ベースの発見やナレッジ グラフの構築など、多くの下流アプリケーションで重要な役割を果たします。
最先端の手法は主に、タンパク質間相互作用や化学物質による疾患の関係など、個々の RE データセット上で機械学習モデルをトレーニングするために使用されました。
ただし、手動でデータセットにアノテーションを付けるには、ドメインの知識が必要なため、非常に費用と時間がかかります。
既存の RE データセットは通常、ドメイン固有であるか小規模であるため、一般化された高性能 RE モデルの開発が制限されます。
この研究では、個々のデータセットのデータの異質性に体系的に対処し、それらを大規模なデータセットに結合するための新しいフレームワークを紹介します。
フレームワークとデータセットに基づいて、関係を抽出するためのデータ中心のアプローチである BioREx について報告します。
私たちの評価では、BioREx が個々のデータセットでトレーニングされたベンチマーク システムよりも大幅に高いパフォーマンスを達成し、最近リリースされた BioRED コーパスの F-1 測定で新しい SOTA を 74.4% から 79.6% に設定していることが示されています。
さらに、結合されたデータセットにより 5 つの異なる RE タスクのパフォーマンスが向上することを実証します。
さらに、平均すると、BioREx は転移学習やマルチタスク学習などの現在最もパフォーマンスの高い手法と比較して優れていることを示します。
最後に、これまでトレーニング データでは見られなかった 2 つの独立した RE タスク、薬物間 N 配列組み合わせおよび文書レベルの遺伝子疾患 RE における BioREx の堅牢性と一般化性を実証します。
統合されたデータセットと最適化されたメソッドは、https://github.com/ncbi/BioREx で利用できるスタンドアロン ツールとしてパッケージ化されています。

要約(オリジナル)

Biomedical relation extraction (RE) is the task of automatically identifying and characterizing relations between biomedical concepts from free text. RE is a central task in biomedical natural language processing (NLP) research and plays a critical role in many downstream applications, such as literature-based discovery and knowledge graph construction. State-of-the-art methods were used primarily to train machine learning models on individual RE datasets, such as protein-protein interaction and chemical-induced disease relation. Manual dataset annotation, however, is highly expensive and time-consuming, as it requires domain knowledge. Existing RE datasets are usually domain-specific or small, which limits the development of generalized and high-performing RE models. In this work, we present a novel framework for systematically addressing the data heterogeneity of individual datasets and combining them into a large dataset. Based on the framework and dataset, we report on BioREx, a data-centric approach for extracting relations. Our evaluation shows that BioREx achieves significantly higher performance than the benchmark system trained on the individual dataset, setting a new SOTA from 74.4% to 79.6% in F-1 measure on the recently released BioRED corpus. We further demonstrate that the combined dataset can improve performance for five different RE tasks. In addition, we show that on average BioREx compares favorably to current best-performing methods such as transfer learning and multi-task learning. Finally, we demonstrate BioREx’s robustness and generalizability in two independent RE tasks not previously seen in training data: drug-drug N-ary combination and document-level gene-disease RE. The integrated dataset and optimized method have been packaged as a stand-alone tool available at https://github.com/ncbi/BioREx.

arxiv情報

著者 Po-Ting Lai,Chih-Hsuan Wei,Ling Luo,Qingyu Chen,Zhiyong Lu
発行日 2023-06-19 22:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク