要約
画像間の変換は、医療画像処理に大きな影響を与える可能性があります。つまり、患者の画像を別のモダリティ、タイプ、またはシーケンスに変換して診断を向上させることができれば可能です。
ただし、これらの方法は人間の読者による研究によって検証する必要があり、費用がかかり、サンプルが少ないことに制限されます。
人間による検証が必要になる前に、大量のサンプルを自動評価して方法を事前評価し、継続的に改善します。
この研究では、画像合成評価のための参照メトリックと非参照メトリックの概要を示し、参照を必要とする 9 つのメトリック (SSIM、MS-SSIM、PSNR、MSE、NMSE、MAE、LPIPS、NMI、および
PCC) と 3 つの非参照メトリクス (BLUR、MSN、MNG) を使用して、BraSyn データセットからの MR 画像の 11 種類の歪みを検出します。
さらに、下流のセグメンテーション メトリックと 3 つの正規化方法 (Minmax、cMinMax、Zscore) の効果をテストします。
PSNR と SSIM は、医療分野で画像から画像への変換タスクの生成モデルを評価するために頻繁に使用されますが、非常に特有の欠点があります。
SSIM はブラーを無視しますが、正規化されていない MR 画像の強度シフトには非常に敏感です。
PSNR はさまざまな正規化方法に対してさらに敏感であり、歪みの程度はほとんど測定されません。
LPIPS、NMI、DICE などのさらなるメトリクスは、他の類似性の側面を評価するのに非常に役立ちます。
比較する画像の位置がずれている場合、ほとんどの指標に欠陥があります。
画像類似性メトリクスを慎重に選択し、合理的に組み合わせることで、MR 画像合成のための生成モデルのトレーニングと選択を改善できます。
訓練を受けた放射線科医による最終的かつ費用のかかる評価が実施される前に、その出力の多くの側面を検証できます。
要約(オリジナル)
Image-to-image translation can create large impact in medical imaging, i.e. if images of a patient can be translated to another modality, type or sequence for better diagnosis. However, these methods must be validated by human reader studies, which are costly and restricted to small samples. Automatic evaluation of large samples to pre-evaluate and continuously improve methods before human validation is needed. In this study, we give an overview of reference and non-reference metrics for image synthesis assessment and investigate the ability of nine metrics, that need a reference (SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI and PCC) and three non-reference metrics (BLUR, MSN, MNG) to detect 11 kinds of distortions in MR images from the BraSyn dataset. In addition we test a downstream segmentation metric and the effect of three normalization methods (Minmax, cMinMax and Zscore). Although PSNR and SSIM are frequently used to evaluate generative models for image-to-image-translation tasks in the medical domain, they show very specific shortcomings. SSIM ignores blurring but is very sensitive to intensity shifts in unnormalized MR images. PSNR is even more sensitive to different normalization methods and hardly measures the degree of distortions. Further metrics, such as LPIPS, NMI and DICE can be very useful to evaluate other similarity aspects. If the images to be compared are misaligned, most metrics are flawed. By carefully selecting and reasonably combining image similarity metrics, the training and selection of generative models for MR image synthesis can be improved. Many aspects of their output can be validated before final and costly evaluation by trained radiologists is conducted.
arxiv情報
著者 | Melanie Dohmen,Mark Klemens,Ivo Baltruschat,Tuan Truong,Matthias Lenga |
発行日 | 2024-05-15 11:24:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google