目的: 臨床試験文献から PICO 要素 (参加者、介入、比較、結果) を抽出することは、臨床証拠の検索、評価、統合に不可欠です。
既存のアプローチでは、PICO エンティティの属性を区別しません。
この研究は、PICO エンティティを細かい粒度で抽出するための名前付きエンティティ認識 (NER) モデルを開発することを目的としています。
材料と方法: 4 つの公開データセットからの PICO 言及を含む 2,511 件の要約のコーパスを使用して、PICO エンティティの限られた注釈付きデータと豊富なラベルなしデータを組み合わせることにより、NER モデル FinePICO のトレーニングを容易にする半教師あり手法を開発しました。
評価のために、データセット全体を 2 つのサブセットに分割しました。注釈のある小さなグループと、注釈のない大きなグループです。
最後に、注釈付きの小さいサブセットと、最初は注釈が付いていない大きいサブセットの両方で FinePICO を評価しました。
精度、リコール、F1 を使用して FinePICO のパフォーマンスを測定しました。
結果: 私たちの方法は、注釈付きサンプルの小さなセットを使用して、それぞれ 0.567/0.636/0.60 の精度/再現率/F1 を達成し、ベースライン モデル (F1: 0.437) を 16% 以上上回りました。
このモデルは、さまざまな PICO フレームワークおよび別のコーパスに対する一般化可能性を示しており、さまざまな実験設定で一貫してベンチマークを上回ります (p 値 \textless0.001)。
結論: この研究は、大規模なラベルなしデータと小さな注釈付きデータを活用して、固有表現認識に対する一般化可能で効果的な半教師ありアプローチに貢献します。
また、当初はきめの細かい PICO 抽出もサポートしています。
Objective: Extracting PICO elements — Participants, Intervention, Comparison, and Outcomes — from clinical trial literature is essential for clinical evidence retrieval, appraisal, and synthesis. Existing approaches do not distinguish the attributes of PICO entities. This study aims to develop a named entity recognition (NER) model to extract PICO entities with fine granularities. Materials and Methods: Using a corpus of 2,511 abstracts with PICO mentions from 4 public datasets, we developed a semi-supervised method to facilitate the training of a NER model, FinePICO, by combining limited annotated data of PICO entities and abundant unlabeled data. For evaluation, we divided the entire dataset into two subsets: a smaller group with annotations and a larger group without annotations. We then established the theoretical lower and upper performance bounds based on the performance of supervised learning models trained solely on the small, annotated subset and on the entire set with complete annotations, respectively. Finally, we evaluated FinePICO on both the smaller annotated subset and the larger, initially unannotated subset. We measured the performance of FinePICO using precision, recall, and F1. Results: Our method achieved precision/recall/F1 of 0.567/0.636/0.60, respectively, using a small set of annotated samples, outperforming the baseline model (F1: 0.437) by more than 16\%. The model demonstrates generalizability to a different PICO framework and to another corpus, which consistently outperforms the benchmark in diverse experimental settings (p-value \textless0.001). Conclusion: This study contributes a generalizable and effective semi-supervised approach to named entity recognition leveraging large unlabeled data together with small, annotated data. It also initially supports fine-grained PICO extraction.
著者 | Fangyi Chen,Gongbo Zhang,Yilu Fang,Yifan Peng,Chunhua Weng |
発行日 | 2024-12-26 20:24:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google