MedGen: A Python Natural Language Processing Toolkit for Medical Text Processing


この研究では、医療テキスト処理用に設計された包括的な自然言語処理 (NLP) ツールキットである MedGen を紹介します。
MedGen は、最小限のプログラミング専門知識を必要とする使いやすいオールインワン ソリューションを備え、生物医学研究者や医療専門家向けに調整されています。
(1) 生成機能: MedGen には初めて、質問応答、テキスト要約、テキスト簡略化、および機械翻訳という 4 つの高度な生成機能が含まれています。
(2) 基本的な NLP 機能: MedGen は、単語のトークン化や文の分割など、12 の必須の NLP 機能を統合します。
(3) クエリおよび検索機能: MedGen は、テキスト コーパスに対するユーザーフレンドリーなクエリおよび検索機能を提供します。
私たちは 32 のドメイン固有の言語モデルを微調整し、24 の確立されたベンチマークで徹底的に評価し、臨床医による手動レビューを実施しました。
さらに、クエリおよび検索機能を導入することでツールキットを拡張するとともに、サードパーティ ライブラリの機能を標準化および統合しました。
ツールキット、そのモデル、および関連データは、 経由で公開されています。


This study introduces MedGen, a comprehensive natural language processing (NLP) toolkit designed for medical text processing. MedGen is tailored for biomedical researchers and healthcare professionals with an easy-to-use, all-in-one solution that requires minimal programming expertise. It includes (1) Generative Functions: For the first time, MedGen includes four advanced generative functions: question answering, text summarization, text simplification, and machine translation; (2) Basic NLP Functions: MedGen integrates 12 essential NLP functions such as word tokenization and sentence segmentation; and (3) Query and Search Capabilities: MedGen provides user-friendly query and search functions on text corpora. We fine-tuned 32 domain-specific language models, evaluated them thoroughly on 24 established benchmarks and conducted manual reviews with clinicians. Additionally, we expanded our toolkit by introducing query and search functions, while also standardizing and integrating functions from third-party libraries. The toolkit, its models, and associated data are publicly available via


著者 Rui Yang,Qingcheng Zeng,Keen You,Yujie Qiao,Lucas Huang,Chia-Chun Hsieh,Benjamin Rosand,Jeremy Goldwasser,Amisha D Dave,Tiarnan D. L. Keenan,Emily Y Chew,Dragomir Radev,Zhiyong Lu,Hua Xu,Qingyu Chen,Irene Li
発行日 2023-11-28 08:13:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク