End-to-End Models for Chemical-Protein Interaction Extraction: Better Tokenization and Span-Based Pipeline Strategies

要約

タイトル- 化学物質-タンパク質相互作用抽出のためのエンドツーエンドモデル:より良いトークナイゼーションとスパンベースのパイプライン戦略
要約-
– E2EREは、情報抽出における重要なタスクであり、特に医療科学文献が急速に増加しているバイオメディカル分野では、重要なタスクである。
– E2EREには、通常、エンティティ(または名前付きエンティティ認識(NER))と関連する関係の特定が含まれます。一方、REタスクのほとんどは、エンティティが事前に提供されることを前提として、関係分類を実行します。
– 医学分野のE2EREの複雑なデータセットの1つは、ChemProtデータセット(BioCreative VI、2017)であり、科学文献中の化学物質と遺伝子/タンパク質の関係を特定します。
– この研究では、スパンベースのパイプラインアプローチを採用して、ChemProtデータセットで新しい最高のE2EREパフォーマンスを提供し、前回の最高の努力に比べてF1スコアが4%以上向上しました。
– 我々の結果は、直感的なファイングレインドトークナイゼーションスキームがスパンベースのアプローチにおいて、特に複雑な名前付きエンティティの処理においてどのように卓越しているかを示しています。
– 我々のエラー分析は、ChemProtにおけるE2EREのいくつかの主要な失敗モードを特定します。

要約(オリジナル)

End-to-end relation extraction (E2ERE) is an important task in information extraction, more so for biomedicine as scientific literature continues to grow exponentially. E2ERE typically involves identifying entities (or named entity recognition (NER)) and associated relations, while most RE tasks simply assume that the entities are provided upfront and end up performing relation classification. E2ERE is inherently more difficult than RE alone given the potential snowball effect of errors from NER leading to more errors in RE. A complex dataset in biomedical E2ERE is the ChemProt dataset (BioCreative VI, 2017) that identifies relations between chemical compounds and genes/proteins in scientific literature. ChemProt is included in all recent biomedical natural language processing benchmarks including BLUE, BLURB, and BigBio. However, its treatment in these benchmarks and in other separate efforts is typically not end-to-end, with few exceptions. In this effort, we employ a span-based pipeline approach to produce a new state-of-the-art E2ERE performance on the ChemProt dataset, resulting in $> 4\%$ improvement in F1-score over the prior best effort. Our results indicate that a straightforward fine-grained tokenization scheme helps span-based approaches excel in E2ERE, especially with regards to handling complex named entities. Our error analysis also identifies a few key failure modes in E2ERE for ChemProt.

arxiv情報

著者 Xuguang Ai,Ramakanth Kavuluru
発行日 2023-04-03 20:20:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク