Hierarchical Neyman-Pearson Classification for Prioritizing Severe Disease Categories in COVID-19 Patient Data

要約

新型コロナウイルス感染症には、無症状から入院が必要なものまで、さまざまな重症度があります。
病気の重症化を引き起こすメカニズムを理解することは、効果的な治療法を開発し、死亡率を下げるために重要です。
このような理解を得る 1 つの方法は、患者の生物学的特徴を使用して患者の重症度クラスを予測する、マルチクラス分類フレームワークを使用することです。
この重症度分類の問題では、より重症のクラスの特定を優先し、患者がそれほど重症ではないカテゴリに誤って分類される「過小分類」エラーを制御することが有益です。
ネイマン-ピアソン (NP) 分類パラダイムは、指定されたタイプのエラーに優先順位を付けるために開発されました。
ただし、現在の NP 手順はバイナリ分類用であるか、マルチクラス分類で優先順位付けされたエラーに対する高確率の制御を提供しません。
ここでは、階層型 NP (H-NP) フレームワークと、一般に一般的な分類方法に適応し、高確率で過小分類エラーを制御する包括的なアルゴリズムを提案します。
864 人の患者の単一細胞 RNA-seq (scRNA-seq) データセットの統合コレクションについて、特徴付けの方法を探索し、特徴付けに関係なく過小分類エラーを制御する H-NP アルゴリズムの有効性を実証します。
新型コロナウイルス感染症 (COVID-19) の重症度分類を超えて、H-NP アルゴリズムは通常、クラスに優先順位があるマルチクラス分類問題に適用されます。

要約(オリジナル)

COVID-19 has a spectrum of disease severity, ranging from asymptomatic to requiring hospitalization. Understanding the mechanisms driving disease severity is crucial for developing effective treatments and reducing mortality rates. One way to gain such understanding is using a multi-class classification framework, in which patients’ biological features are used to predict patients’ severity classes. In this severity classification problem, it is beneficial to prioritize the identification of more severe classes and control the ‘under-classification’ errors, in which patients are misclassified into less severe categories. The Neyman-Pearson (NP) classification paradigm has been developed to prioritize the designated type of error. However, current NP procedures are either for binary classification or do not provide high probability controls on the prioritized errors in multi-class classification. Here, we propose a hierarchical NP (H-NP) framework and an umbrella algorithm that generally adapts to popular classification methods and controls the under-classification errors with high probability. On an integrated collection of single-cell RNA-seq (scRNA-seq) datasets for 864 patients, we explore ways of featurization and demonstrate the efficacy of the H-NP algorithm in controlling the under-classification errors regardless of featurization. Beyond COVID-19 severity classification, the H-NP algorithm generally applies to multi-class classification problems, where classes have a priority order.

arxiv情報

著者 Lijia Wang,Y. X. Rachel Wang,Jingyi Jessica Li,Xin Tong
発行日 2023-09-29 14:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP パーマリンク