要約
いくつかの研究は、ディープラーニングモデルがマンモグラム(乳房のX線画像)から乳がんを検出することを学習できることを示している。しかし、オーバーフィッティングや乏しい汎化性という課題が、臨床での日常的な使用を妨げている。ある患者集団のデータで訓練されたモデルは、スキャン技術や患者の特性のばらつきに起因するデータ領域の違いにより、別の患者集団ではうまく機能しない可能性がある。既存の例を変更することにより、学習データの特徴表現の多様性を拡大することで、汎化性を向上させるためにデータ増強技術を使用することができる。画像間変換モデルは、あるデータセットの画像の特徴的な特徴表現(すなわちスタイル)を別のデータセットに課すことができるアプローチの1つである。しかし、モデルの性能を評価することは、特にグランドトゥルース(真実)がない場合(医用画像では一般的な現実)には、自明ではない。ここでは、スタイル変換アルゴリズムを評価する際に考慮すべきいくつかの重要な側面について説明し、一般的な測定基準の長所と短所、およびそれらを実際に実装する際に注意すべき重要な要素を強調する。我々は、2つのタイプの生成モデル、すなわち、サイクル整合的生成敵対ネットワーク(CycleGAN)と拡散ベースのSynDiffモデルを検討する。3つのマンモグラフィデータセットにおいて、対にならない画像間変換を学習する。モデル性能の望ましくない側面が、いくつかのメトリクスの適合性を決定する可能性があることを強調し、また、様々なメトリクスがモデル性能のユニークな側面を評価する程度を示すいくつかの分析を提供する。モデル性能を包括的に評価するためには、複数の測定基準を使用する必要性を強調する。
要約(オリジナル)
Several studies indicate that deep learning models can learn to detect breast cancer from mammograms (X-ray images of the breasts). However, challenges with overfitting and poor generalisability prevent their routine use in the clinic. Models trained on data from one patient population may not perform well on another due to differences in their data domains, emerging due to variations in scanning technology or patient characteristics. Data augmentation techniques can be used to improve generalisability by expanding the diversity of feature representations in the training data by altering existing examples. Image-to-image translation models are one approach capable of imposing the characteristic feature representations (i.e. style) of images from one dataset onto another. However, evaluating model performance is non-trivial, particularly in the absence of ground truths (a common reality in medical imaging). Here, we describe some key aspects that should be considered when evaluating style transfer algorithms, highlighting the advantages and disadvantages of popular metrics, and important factors to be mindful of when implementing them in practice. We consider two types of generative models: a cycle-consistent generative adversarial network (CycleGAN) and a diffusion-based SynDiff model. We learn unpaired image-to-image translation across three mammography datasets. We highlight that undesirable aspects of model performance may determine the suitability of some metrics, and also provide some analysis indicating the extent to which various metrics assess unique aspects of model performance. We emphasise the need to use several metrics for a comprehensive assessment of model performance.
arxiv情報
著者 | Emir Ahmed,Spencer A. Thomas,Ciaran Bench |
発行日 | 2025-02-04 16:52:45+00:00 |
arxivサイト | arxiv_id(pdf) |