Weakly Supervised Text Classification on Free Text Comments in Patient-Reported Outcome Measures

要約

患者報告結果測定 (PROM) データ内のフリー テキスト コメント (FTC) は、通常、内容分析などの手作業による方法を使用して分析されますが、これには多大な労力と時間がかかります。
機械学習の分析手法はほとんどが監視されていないため、分析後の解釈が必要です。
弱教師付きテキスト分類 (WSTC) は、ラベル付きデータが限られているドメイン固有のテキスト データを分類するための貴重な分析方法です。
この論文では、結腸直腸がん患者によって報告された健康関連の生活の質 (HRQoL) のテーマを特定するために、PROM データの FTC に 5 つの WSTC 手法を適用します。
WSTC の手法では、FTC で言及されているすべてのテーマにラベルが付けられます。
結果は、主にモデルの精度とテーマ間のばらつきにより、PROM データに対して中程度のパフォーマンスを示しました。
分類パフォーマンスの評価により、ラベル付きデータが限られている場合に PROM FTC にラベルを付けるためのキーワード ベースの WSTC の可能性と限界が明らかになりました。

要約(オリジナル)

Free text comments (FTC) in patient-reported outcome measures (PROMs) data are typically analysed using manual methods, such as content analysis, which is labour-intensive and time-consuming. Machine learning analysis methods are largely unsupervised, necessitating post-analysis interpretation. Weakly supervised text classification (WSTC) can be a valuable method of analysis to classify domain-specific text data in which there is limited labelled data. In this paper, we apply five WSTC techniques to FTC in PROMs data to identify health-related quality of life (HRQoL) themes reported by colorectal cancer patients. The WSTC methods label all the themes mentioned in the FTC. The results showed moderate performance on the PROMs data, mainly due to the precision of the models, and variation between themes. Evaluation of the classification performance illustrated the potential and limitations of keyword based WSTC to label PROMs FTC when labelled data is limited.

arxiv情報

著者 Anna-Grace Linton,Vania Dimitrova,Amy Downing,Richard Wagland,Adam Glaser
発行日 2023-08-11 15:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク