要約
イベント発生までの時間の予測、例:
がんの生存率や入院期間の分析は、医療およびヘルスケアのアプリケーションにおける非常に重要な機械学習タスクです。
ただし、その課題に対応できる、解釈可能な機械学習手法はほんのわずかです。
生存モデルの包括的な説明分析を促進するために、時間依存の特徴効果と全体的な特徴の重要性の説明を正式に導入します。
人間の専門家によって注釈が付けられたテキストの放射線医学レポートを含む 1,235 枚の X 線画像から作成された新しいマルチモーダル データセットを使用して、ポストホック解釈手法により、入院期間を予測する AI システムのバイアスを発見する方法を示します。
さらに、我々は、The Cancer Genome Atlas (TCGA) の 11 個のデータセットからなる大規模なベンチマークに基づいて、マルチオミクス特徴グループの重要性を含めて、予測パフォーマンスを超えた癌生存モデルを評価します。
モデル開発者は提案された方法を使用して機械学習アルゴリズムをデバッグおよび改善でき、一方医師は疾患バイオマーカーを発見してその重要性を評価できます。
私たちは、提供されたオープンデータとコードリソースが、説明可能な生存分析という新たな研究方向での将来の研究を促進することを願っています。
要約(オリジナル)
Time-to-event prediction, e.g. cancer survival analysis or hospital length of stay, is a highly prominent machine learning task in medical and healthcare applications. However, only a few interpretable machine learning methods comply with its challenges. To facilitate a comprehensive explanatory analysis of survival models, we formally introduce time-dependent feature effects and global feature importance explanations. We show how post-hoc interpretation methods allow for finding biases in AI systems predicting length of stay using a novel multi-modal dataset created from 1235 X-ray images with textual radiology reports annotated by human experts. Moreover, we evaluate cancer survival models beyond predictive performance to include the importance of multi-omics feature groups based on a large-scale benchmark comprising 11 datasets from The Cancer Genome Atlas (TCGA). Model developers can use the proposed methods to debug and improve machine learning algorithms, while physicians can discover disease biomarkers and assess their significance. We hope the contributed open data and code resources facilitate future work in the emerging research direction of explainable survival analysis.
arxiv情報
著者 | Hubert Baniecki,Bartlomiej Sobieski,Patryk Szatkowski,Przemyslaw Bombinski,Przemyslaw Biecek |
発行日 | 2024-03-27 16:52:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google