Interpretable Solutions for Breast Cancer Diagnosis with Grammatical Evolution and Data Augmentation

要約

医用画像診断は、機械学習 (ML) モデルへの依存度が高まっています。
これは、データセットが著しく不均衡であることによって妨げられることが多く、陽性例が非常にまれな場合もあります。
解釈可能性が限られているため、その使用はさらに困難になり、その解釈可能性はますます重要になっています。
SHAP や LIME などの事後解釈可能技術は、いわゆるブラック ボックス モデルである程度の成功を収めていますが、本質的に理解可能なモデルを使用すると、そのような取り組みがより実りあるものになります。
この論文では、比較的新しい合成データ生成手法である STEM を使用して、本質的に理解可能な文法進化 (GE) によって生成されたモデルをトレーニングするためのデータを生成する方法を実証することで、これらの問題に対処します。
STEM は、合成マイノリティ オーバーサンプリング技術 (SMOTE)、編集最近傍 (ENN)、およびミックスアップを組み合わせて最近導入されたものです。
これまで、階級間および階級内の両方の不均衡問題に対処するためにうまく使用されてきました。
私たちは、デジタル データベース スクリーニング マンモグラフィー (DDSM) とウィスコンシン乳がん (WBC) データセットで技術をテストし、曲線下面積 (AUC) の結果を 8 つの標準 ML 分類器セットの上位 3 つのパフォーマンス分類器のアンサンブルと比較します。
解釈可能性の程度はさまざまです。
GE 由来のモデルが解釈可能なソリューションを維持しながら最高の AUC を提示することを実証します。

要約(オリジナル)

Medical imaging diagnosis increasingly relies on Machine Learning (ML) models. This is a task that is often hampered by severely imbalanced datasets, where positive cases can be quite rare. Their use is further compromised by their limited interpretability, which is becoming increasingly important. While post-hoc interpretability techniques such as SHAP and LIME have been used with some success on so-called black box models, the use of inherently understandable models makes such endeavors more fruitful. This paper addresses these issues by demonstrating how a relatively new synthetic data generation technique, STEM, can be used to produce data to train models produced by Grammatical Evolution (GE) that are inherently understandable. STEM is a recently introduced combination of the Synthetic Minority Oversampling Technique (SMOTE), Edited Nearest Neighbour (ENN), and Mixup; it has previously been successfully used to tackle both between class and within class imbalance issues. We test our technique on the Digital Database for Screening Mammography (DDSM) and the Wisconsin Breast Cancer (WBC) datasets and compare Area Under the Curve (AUC) results with an ensemble of the top three performing classifiers from a set of eight standard ML classifiers with varying degrees of interpretability. We demonstrate that the GE-derived models present the best AUC while still maintaining interpretable solutions.

arxiv情報

著者 Yumnah Hasan,Allan de Lima,Fatemeh Amerehi,Darian Reyes Fernandez de Bulnes,Patrick Healy,Conor Ryan
発行日 2024-01-25 15:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク