Text Classification of Cancer Clinical Trial Eligibility Criteria

要約

患者が参加資格のある臨床試験を自動的に識別することは、試験の資格が自然言語で記述されているという事実によって複雑になります。
この問題に対する潜在的な解決策は、一般的な種類の適格性基準にテキスト分類方法を採用することです。
この研究では、がんの治験における7つの一般的な除外基準、すなわち、悪性腫瘍の既往、ヒト免疫不全ウイルス、B型肝炎、C型肝炎、精神疾患、薬物/薬物乱用、および自己免疫疾患に焦点を当てています。
私たちのデータセットは、764 件の第 III 相がん試験で構成されており、これらの除外項目には試験レベルで注釈が付けられています。
私たちは、一般的な変圧器モデルと、新しい事前トレーニング済み臨床試験 BERT モデルを実験します。
私たちの結果は、共通の除外基準を自動的に分類する実現可能性を示しています。
さらに、臨床試験専用の事前トレーニング済み言語モデルの価値を実証し、すべての基準にわたって最高の平均パフォーマンスをもたらします。

要約(オリジナル)

Automatic identification of clinical trials for which a patient is eligible is complicated by the fact that trial eligibility is stated in natural language. A potential solution to this problem is to employ text classification methods for common types of eligibility criteria. In this study, we focus on seven common exclusion criteria in cancer trials: prior malignancy, human immunodeficiency virus, hepatitis B, hepatitis C, psychiatric illness, drug/substance abuse, and autoimmune illness. Our dataset consists of 764 phase III cancer trials with these exclusions annotated at the trial level. We experiment with common transformer models as well as a new pre-trained clinical trial BERT model. Our results demonstrate the feasibility of automatically classifying common exclusion criteria. Additionally, we demonstrate the value of a pre-trained language model specifically for clinical trials, which yields the highest average performance across all criteria.

arxiv情報

著者 Yumeng Yang,Soumya Jayaraj,Ethan B Ludmir,Kirk Roberts
発行日 2023-09-14 15:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク