要約
ライフサイエンス文献の急激な成長に伴い、生物医学テキストマイニング (BTM) は、出版物からの洞察の抽出を加速するために不可欠なテクノロジーとなっています。
テキスト内の名前付きエンティティ (病気、薬、遺伝子など) を識別し、それらを参照知識ベースにリンクすることは、さまざまなドキュメントからの情報の集約を可能にする BTM パイプラインの重要なステップです。
ただし、これら 2 つのステップのツールが、開発されたときと同じコンテキストで適用されることはほとんどありません。
代わりに、それらは実際に適用されます。つまり、ツールのトレーニングに使用されるものとは異なる、焦点、ジャンル、スタイル、テキスト タイプなどの異なるアプリケーション依存のテキスト コレクションに適用されます。
このため、BTM ツールの報告されたパフォーマンスがダウンストリーム アプリケーションに対して信頼できるかどうかという疑問が生じます。
ここでは、訓練中に使用されなかったコーパスにツールが体系的に適用された、固有表現抽出用に慎重に設計されたクロスコーパスベンチマークの結果について報告します。
28 の公開されているシステムの調査に基づいて、4 つの異なるエンティティ タイプを含む 3 つの公開されているコーパスに関する詳細な分析のために 5 つを選択しました。
ツール間を比較すると、さまざまな状況が得られ、コーパス間設定では、パフォーマンスがコーパス内設定で報告されたものよりも大幅に低いことがわかります。
HunFlair2 は平均して最高のパフォーマンスを示し、PubTator が僅差でそれに続きました。
私たちの結果は、BTM ツールのユーザーが実際に BTM ツールを適用すると、元の出版物と比較してパフォーマンスが低下することを予期する必要があり、BTM ツールをより堅牢にするためにはさらなる研究が必要であることを示しています。
要約(オリジナル)
With the exponential growth of the life science literature, biomedical text mining (BTM) has become an essential technology for accelerating the extraction of insights from publications. Identifying named entities (e.g., diseases, drugs, or genes) in texts and their linkage to reference knowledge bases are crucial steps in BTM pipelines to enable information aggregation from different documents. However, tools for these two steps are rarely applied in the same context in which they were developed. Instead, they are applied in the wild, i.e., on application-dependent text collections different from those used for the tools’ training, varying, e.g., in focus, genre, style, and text type. This raises the question of whether the reported performance of BTM tools can be trusted for downstream applications. Here, we report on the results of a carefully designed cross-corpus benchmark for named entity extraction, where tools were applied systematically to corpora not used during their training. Based on a survey of 28 published systems, we selected five for an in-depth analysis on three publicly available corpora encompassing four different entity types. Comparison between tools results in a mixed picture and shows that, in a cross-corpus setting, the performance is significantly lower than the one reported in an in-corpus setting. HunFlair2 showed the best performance on average, being closely followed by PubTator. Our results indicate that users of BTM tools should expect diminishing performances when applying them in the wild compared to original publications and show that further research is necessary to make BTM tools more robust.
arxiv情報
著者 | Mario Sänger,Samuele Garda,Xing David Wang,Leon Weber-Genzel,Pia Droop,Benedikt Fuchs,Alan Akbik,Ulf Leser |
発行日 | 2024-02-19 18:58:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google