Frequency Domain Decomposition Translation for Enhanced Medical Image Translation Using GANs

要約

医療画像間の翻訳は、コンピュータビジョンと生成人工知能における重要なタスクであり、医療画像解析への応用性が高い。GANを用いた手法は画像間の変換手法の主流であるが、周波数領域における画像のばらつきや分布を無視したり、高周波数情報を整列させる単純な手段しかとらなかったりすることが多く、生成される画像に歪みや低品質をもたらすことがある。これらの問題を解決するために、我々は周波数領域分解変換(FDDT)と呼ばれる新しい手法を提案する。この方法は、原画像を高周波数成分と低周波数成分に分解し、高周波数成分には詳細情報と識別情報を、低周波数成分にはスタイル情報を含ませる。次に、変換された画像の高周波数成分と低周波数成分を、空間領域における同じ周波数帯域の原画像の高周波数成分と低周波数成分の変換結果と位置合わせすることで、画像の様式情報をできるだけ破壊せずに画像の同一性情報を保持する。FDDTといくつかの主流のベースラインモデルを用いて、MRI画像と自然画像に対して広範な実験を行い、生成された画像の品質を評価するために4つの評価指標を用いる。ベースラインモデルと比較して、FDDTは最適に、Fr’echetインセプション距離を最大24.4%、構造類似度を最大4.4%、ピークS/N比を最大5.8%、平均二乗誤差を最大31%削減できる。従来の方法と比較すると、FDDTは最適化により、Fr’echetインセプション距離を最大23.7%、構造類似度を最大1.8%、ピークS/N比を最大6.8%、平均二乗誤差を最大31.6%減少させることができる。

要約(オリジナル)

Medical Image-to-image translation is a key task in computer vision and generative artificial intelligence, and it is highly applicable to medical image analysis. GAN-based methods are the mainstream image translation methods, but they often ignore the variation and distribution of images in the frequency domain, or only take simple measures to align high-frequency information, which can lead to distortion and low quality of the generated images. To solve these problems, we propose a novel method called frequency domain decomposition translation (FDDT). This method decomposes the original image into a high-frequency component and a low-frequency component, with the high-frequency component containing the details and identity information, and the low-frequency component containing the style information. Next, the high-frequency and low-frequency components of the transformed image are aligned with the transformed results of the high-frequency and low-frequency components of the original image in the same frequency band in the spatial domain, thus preserving the identity information of the image while destroying as little stylistic information of the image as possible. We conduct extensive experiments on MRI images and natural images with FDDT and several mainstream baseline models, and we use four evaluation metrics to assess the quality of the generated images. Compared with the baseline models, optimally, FDDT can reduce Fr\’echet inception distance by up to 24.4%, structural similarity by up to 4.4%, peak signal-to-noise ratio by up to 5.8%, and mean squared error by up to 31%. Compared with the previous method, optimally, FDDT can reduce Fr\’echet inception distance by up to 23.7%, structural similarity by up to 1.8%, peak signal-to-noise ratio by up to 6.8%, and mean squared error by up to 31.6%.

arxiv情報

著者 Zhuhui Wang,Jianwei Zuo,Xuliang Deng,Jiajia Luo
発行日 2023-11-06 15:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク