要約
月経健康は、女性のヘルスケアの重要なものですが、見落とされがちな側面です。
その臨床的関連性にもかかわらず、月経特性に関する詳細なデータは、構造化された医療記録ではめったに利用できません。
このギャップに対処するために、重要な月経周期の属性、つまり死傷症、規則性、流量、および臨床出血を抽出するための新しい自然言語処理パイプラインを提案します。
当社のアプローチは、ハイブリッド検索前処理ステップによって強化されたマルチタスクプロンプトベースの学習を備えたGatortronモデルを利用して、関連するテキストセグメントを識別します。
100未満の注釈付き臨床ノートで訓練されているにもかかわらず、すべての月経特性で平均F1スコアが90%の平均F1スコアを達成し、ベースライン方法を実行します。
検索ステップは、すべてのアプローチのパフォーマンスを一貫して改善し、モデルが長い臨床ノートの最も関連性の高いセグメントに集中できるようにします。
これらの結果は、マルチタスク学習と検索を組み合わせることで、月経特性全体の一般化とパフォーマンスが向上し、臨床ノートからの自動抽出を進め、女性の健康研究をサポートすることを示しています。
要約(オリジナル)
Menstrual health is a critical yet often overlooked aspect of women’s healthcare. Despite its clinical relevance, detailed data on menstrual characteristics is rarely available in structured medical records. To address this gap, we propose a novel Natural Language Processing pipeline to extract key menstrual cycle attributes — dysmenorrhea, regularity, flow volume, and intermenstrual bleeding. Our approach utilizes the GatorTron model with Multi-Task Prompt-based Learning, enhanced by a hybrid retrieval preprocessing step to identify relevant text segments. It out- performs baseline methods, achieving an average F1-score of 90% across all menstrual characteristics, despite being trained on fewer than 100 annotated clinical notes. The retrieval step consistently improves performance across all approaches, allowing the model to focus on the most relevant segments of lengthy clinical notes. These results show that combining multi-task learning with retrieval improves generalization and performance across menstrual charac- teristics, advancing automated extraction from clinical notes and supporting women’s health research.
arxiv情報
著者 | Anna Shopova,Cristoph Lippert,Leslee J. Shaw,Eugenia Alleva |
発行日 | 2025-03-31 14:07:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google