Evaluating and Improving the Effectiveness of Synthetic Chest X-Rays for Medical Image Analysis

要約

目的: 合成胸部 X 線画像を生成し、医療画像データセットを増強して、分類やセグメンテーションなどの下流タスクにおけるディープラーニング モデルのパフォーマンスを最適化するためのベスト プラクティス アプローチを調査します。
材料と方法: 潜在拡散モデルを利用して、テキスト プロンプトおよび/またはセグメンテーション マスクでの合成胸部 X 線の生成を条件付けしました。
私たちは、合成データの品質を向上させるために、プロキシ モデルの使用や放射線科医のフィードバックの使用などの方法を検討しました。
これらの合成画像は、関連する疾患情報または幾何学的に変換されたセグメンテーション マスクから生成され、CheXpert、CANDID-PTX、SIIM、および RSNA 肺炎データセットからのグラウンド トゥルース トレーニング セット画像に追加され、テスト セットでの分類およびセグメンテーション モデルのパフォーマンスの改善を測定しました。

F1 スコアと Dice スコアをそれぞれ分類とセグメンテーションの評価に使用しました。
ボンフェローニ補正を使用した片側 t 検定により、合成データによるパフォーマンス向上の統計的有意性を評価しました。
結果: すべての実験を通じて、生成した合成データは、実際のデータのみを使用した場合と比較して、最大平均分類 F1 スコアが 0.150453 (CI: 0.099108-0.201798; P=0.0031) 向上しました。
セグメンテーションの場合、Dice スコアの最大改善は 0.14575 (CI: 0.108267-0.183233; P=0.0064) でした。
結論: 下流タスク用の合成胸部 X 線画像を生成するためのベスト プラクティスには、単一疾患ラベルまたは幾何学的に変換されたセグメンテーション マスクでの条件付け、およびそのような世代を微調整するためのプロキシ モデリングの使用が含まれます。

要約(オリジナル)

Purpose: To explore best-practice approaches for generating synthetic chest X-ray images and augmenting medical imaging datasets to optimize the performance of deep learning models in downstream tasks like classification and segmentation. Materials and Methods: We utilized a latent diffusion model to condition the generation of synthetic chest X-rays on text prompts and/or segmentation masks. We explored methods like using a proxy model and using radiologist feedback to improve the quality of synthetic data. These synthetic images were then generated from relevant disease information or geometrically transformed segmentation masks and added to ground truth training set images from the CheXpert, CANDID-PTX, SIIM, and RSNA Pneumonia datasets to measure improvements in classification and segmentation model performance on the test sets. F1 and Dice scores were used to evaluate classification and segmentation respectively. One-tailed t-tests with Bonferroni correction assessed the statistical significance of performance improvements with synthetic data. Results: Across all experiments, the synthetic data we generated resulted in a maximum mean classification F1 score improvement of 0.150453 (CI: 0.099108-0.201798; P=0.0031) compared to using only real data. For segmentation, the maximum Dice score improvement was 0.14575 (CI: 0.108267-0.183233; P=0.0064). Conclusion: Best practices for generating synthetic chest X-ray images for downstream tasks include conditioning on single-disease labels or geometrically transformed segmentation masks, as well as potentially using proxy modeling for fine-tuning such generations.

arxiv情報

著者 Eva Prakash,Jeya Maria Jose Valanarasu,Zhihong Chen,Eduardo Pontes Reis,Andrew Johnston,Anuj Pareek,Christian Bluethgen,Sergios Gatidis,Cameron Olsen,Akshay Chaudhari,Andrew Ng,Curtis Langlotz
発行日 2024-11-27 18:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク