要約
2 つの画像を客観的かつ定量的に比較するために、基準メトリックが開発されました。
特に、再構成または圧縮された画像の品質を評価する場合、これらの指標は非常に役立つことが示されています。
人為的に歪ませた自然画像のベンチマークでこのような指標を広範にテストした結果、どの指標が人間の品質認識と最もよく相関するかが明らかになりました。
ただし、画像内容、画像データ形式、画像解釈に関する前提が大きく異なることが多いため、これらの指標を医用画像生成モデルの評価に直接適用すると、簡単に落とし穴に陥る可能性があります。
また、基準メトリクスと人間の品質認識の相関関係は、歪みの種類によって大きく異なる可能性があり、SSIM、PSNR、MAE などの一般的に使用されるメトリクスがすべての状況に最適な選択であるとは限りません。
予期せぬ、そしておそらく望ましくない参照指標スコアを示す 5 つの落とし穴を選択し、それらを回避する戦略について説明します。
要約(オリジナル)
Reference metrics have been developed to objectively and quantitatively compare two images. Especially for evaluating the quality of reconstructed or compressed images, these metrics have shown very useful. Extensive tests of such metrics on benchmarks of artificially distorted natural images have revealed which metric best correlate with human perception of quality. Direct transfer of these metrics to the evaluation of generative models in medical imaging, however, can easily lead to pitfalls, because assumptions about image content, image data format and image interpretation are often very different. Also, the correlation of reference metrics and human perception of quality can vary strongly for different kinds of distortions and commonly used metrics, such as SSIM, PSNR and MAE are not the best choice for all situations. We selected five pitfalls that showcase unexpected and probably undesired reference metric scores and discuss strategies to avoid them.
arxiv情報
著者 | Melanie Dohmen,Tuan Truong,Ivo M. Baltruschat,Matthias Lenga |
発行日 | 2024-08-12 11:48:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google