Advancing Italian Biomedical Information Extraction with Large Language Models: Methodological Insights and Multicenter Practical Application

要約

病院における電子化された医療記録の導入により、手書きや情報取得などの煩わしい業務が軽減されました。
しかし、医療記録に含まれるデータは依然として十分に活用されていません。その主な理由は、構造化されていないテキストの医療記録から医療記録を抽出するには時間と労力がかかるためです。
自然言語処理のサブフィールドである情報抽出は、自動化されたテキスト マイニング パイプラインを使用して、臨床医がこの制限を克服するのに役立ちます。
この研究では、イタリア初の神経精神医学固有表現認識データセットである PsyNIT を作成し、それを使用してこのタスク用の大規模言語モデルを開発しました。
さらに、効果的な多施設モデルを実装するために 3 つの外部の独立したデータセットを使用していくつかの実験を実施し、全体の F1 スコア 84.77%、適合率 83.16%、再現率 86.44% を達成しました。
学んだ教訓は、(i) 一貫したアノテーション プロセスの重要な役割、および (ii) 従来の手法と「少数ショット」アプローチを組み合わせた微調整戦略です。
これにより、この分野での将来の実装への道を切り開く方法論的なガイドラインを確立することができ、イタリアの病院が重要な研究機会を活用できるようになりました。

要約(オリジナル)

The introduction of computerized medical records in hospitals has reduced burdensome operations like manual writing and information fetching. However, the data contained in medical records are still far underutilized, primarily because extracting them from unstructured textual medical records takes time and effort. Information Extraction, a subfield of Natural Language Processing, can help clinical practitioners overcome this limitation, using automated text-mining pipelines. In this work, we created the first Italian neuropsychiatric Named Entity Recognition dataset, PsyNIT, and used it to develop a Large Language Model for this task. Moreover, we conducted several experiments with three external independent datasets to implement an effective multicenter model, with overall F1-score 84.77%, Precision 83.16%, Recall 86.44%. The lessons learned are: (i) the crucial role of a consistent annotation process and (ii) a fine-tuning strategy that combines classical methods with a ‘few-shot’ approach. This allowed us to establish methodological guidelines that pave the way for future implementations in this field and allow Italian hospitals to tap into important research opportunities.

arxiv情報

著者 Claudio Crema,Tommaso Mario Buonocore,Silvia Fostinelli,Enea Parimbelli,Federico Verde,Cira Fundarò,Marina Manera,Matteo Cotta Ramusino,Marco Capelli,Alfredo Costa,Giuliano Binetti,Riccardo Bellazzi,Alberto Redolfi
発行日 2023-06-08 16:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク