要約
背景: 利用可能な医療画像データセットのサイズが増大するにつれて、臨床医が知識を抽出するためにコンテンツを手動でレビューすることは不可能になっています。
この研究の目的は、人間が解釈可能なパターン発見をもたらす自動クラスタリングを作成することでした。
方法: 7 つの一般的な色素沈着性皮膚病変診断を含む、公開 HAM10000 データセットからの画像を 29420 タイルにタイル化し、ニューラル ネットワークで抽出した画像特徴を使用して K 平均法によってクラスター化しました。
診断ごとの最終的なクラスター数は、エルボー法または病変内分散とクラスター数のバランスをとるコンパクトネス メトリックのいずれかによって選択されました。
結果として生じる非情報クラスターの量 (画像タイルが 6 個未満を含むクラスターとして定義) を 2 つの方法間で比較しました。
結果: K 平均法を適用すると、最適なエルボ カットオフは、含まれる診断ごとに平均 24.7 (95% CI: 16.4-33) のクラスターとなり、14.9% (95% CI: 0.8-29.0) の非情報クラスターが含まれます。
コンパクトネス指標によって推定された最適なカットオフでは、クラスターが大幅に少なくなり (13.4; 95%-CI 11.8-15.1; p=0.03)、非有益なクラスターも少なくなりました (7.5%; 95% CI: 0-19.5; p
=0.017)。
コンパクトネスメトリックからのクラスターの大部分 (93.6%) は、前述の皮膚鏡診断パターンに手動でマッピングできます。
結論: 教師なしクラスタリングを自動的に制限すると、大規模な画像データセットから、診断に関連し人間が解釈可能な視覚パターンのクラスターを自動的に抽出できます。
要約(オリジナル)
Background: As available medical image datasets increase in size, it becomes infeasible for clinicians to review content manually for knowledge extraction. The objective of this study was to create an automated clustering resulting in human-interpretable pattern discovery. Methods: Images from the public HAM10000 dataset, including 7 common pigmented skin lesion diagnoses, were tiled into 29420 tiles and clustered via k-means using neural network-extracted image features. The final number of clusters per diagnosis was chosen by either the elbow method or a compactness metric balancing intra-lesion variance and cluster numbers. The amount of resulting non-informative clusters, defined as those containing less than six image tiles, was compared between the two methods. Results: Applying k-means, the optimal elbow cutoff resulted in a mean of 24.7 (95%-CI: 16.4-33) clusters for every included diagnosis, including 14.9% (95% CI: 0.8-29.0) non-informative clusters. The optimal cutoff, as estimated by the compactness metric, resulted in significantly fewer clusters (13.4; 95%-CI 11.8-15.1; p=0.03) and less non-informative ones (7.5%; 95% CI: 0-19.5; p=0.017). The majority of clusters (93.6%) from the compactness metric could be manually mapped to previously described dermatoscopic diagnostic patterns. Conclusions: Automatically constraining unsupervised clustering can produce an automated extraction of diagnostically relevant and human-interpretable clusters of visual patterns from a large image dataset.
arxiv情報
著者 | Lidia Talavera-Martinez,Philipp Tschandl |
発行日 | 2023-09-15 16:50:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google