CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

要約

Chexgenbenchを紹介します。これは、最先端のテキストから画像への生成モデル全体で忠実度、プライバシーリスク、臨床的有用性を同時に評価する合成胸部レントゲン写真生成のための厳密で多面的な評価フレームワークです。
現実世界の画像の生成AIの急速な進歩にもかかわらず、医療ドメインの評価は、方法論的な矛盾、時代遅れの建築的比較、および合成サンプルの実際の臨床価値にめったに対処しないことを切断した評価基準によって妨げられてきました。
Chexgenbenchは、標準化されたデータパーティション化と、生成品質、潜在的なプライバシーの脆弱性、11の主要なテキストから画像のアーキテクチャにわたる下流の臨床的適用性を体系的に分析する20を超える定量的メトリックを含む統一された評価プロトコルを通じて、これらの制限を克服します。
我々の結果は、既存の評価プロトコル、特に生成的忠実度の評価における重要な非効率性を明らかにし、一貫性と情報のない比較につながります。
私たちのフレームワークは、医療AIコミュニティの標準化されたベンチマークを確立し、既存および将来の生成モデルの両方のシームレスな統合を促進しながら、客観的かつ再現可能な比較を可能にします。
さらに、この重要なドメインでのさらなる研究をサポートするために、ベンチマークで最高パフォーマンスモデル(SANA 0.6B)によって生成された75Kレントゲン写真を含む、高品質の合成データセット、SynthChex-75Kをリリースします。
Chexgenbenchを通じて、新しい最先端を確立し、https://raman1121.github.io/chexgenbench/でフレームワーク、モデル、およびSynthchex-75kデータセットをリリースします。

要約(オリジナル)

We introduce CheXGenBench, a rigorous and multifaceted evaluation framework for synthetic chest radiograph generation that simultaneously assesses fidelity, privacy risks, and clinical utility across state-of-the-art text-to-image generative models. Despite rapid advancements in generative AI for real-world imagery, medical domain evaluations have been hindered by methodological inconsistencies, outdated architectural comparisons, and disconnected assessment criteria that rarely address the practical clinical value of synthetic samples. CheXGenBench overcomes these limitations through standardised data partitioning and a unified evaluation protocol comprising over 20 quantitative metrics that systematically analyse generation quality, potential privacy vulnerabilities, and downstream clinical applicability across 11 leading text-to-image architectures. Our results reveal critical inefficiencies in the existing evaluation protocols, particularly in assessing generative fidelity, leading to inconsistent and uninformative comparisons. Our framework establishes a standardised benchmark for the medical AI community, enabling objective and reproducible comparisons while facilitating seamless integration of both existing and future generative models. Additionally, we release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K radiographs generated by the top-performing model (Sana 0.6B) in our benchmark to support further research in this critical domain. Through CheXGenBench, we establish a new state-of-the-art and release our framework, models, and SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/

arxiv情報

著者 Raman Dutt,Pedro Sanchez,Yongchen Yao,Steven McDonagh,Sotirios A. Tsaftaris,Timothy Hospedales
発行日 2025-05-15 16:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク