Retinal Image Restoration using Transformer and Cycle-Consistent Generative Adversarial Network

要約

医療用画像は、様々な病気の発見や治療に重要な役割を担っています。しかし、これらの画像はしばしば画質が悪く、効率の低下や余分な費用の発生、さらには誤った診断につながることがある。そこで我々は、視覚変換器と畳み込みニューラルネットワークを用いた網膜画像強調法を提案する。これは、ペアリングされていないデータセットに依存する、サイクル一貫性のある生成的敵対ネットワークを構築するものである。これは、画像をあるドメインから別のドメインに変換する(例えば、低画質から高画質、またはその逆)2つの生成器からなり、2つの識別器と敵対的なゲームを行う。ジェネレータは、生成された画像から元の画像を予測する識別器に対して、識別不可能な画像を生成する。生成器は、ViT(Vision Transformer)エンコーダーとCNN(Convolutional Neural Network)デコーダーの組み合わせである。識別器には、従来のCNNエンコーダーが使用されています。改良された画像は、ピーク信号対雑音比(PSNR)、構造類似性指標測定(SSIM)などの評価指標を用いて定量的に、また血管セグメンテーションなどの定性的にテストされた。提案手法は、ブレ、ノイズ、照明の乱れ、色の歪みなどの悪影響を軽減し、構造情報と色情報を大幅に保存することに成功した。実験結果は、提案手法の優位性を示している。テスト用PSNRは、第1データセットで31.138dB、第2データセットで27.798dBであった。テスト用SSIMはそれぞれ0.919と0.904である。

要約(オリジナル)

Medical imaging plays a significant role in detecting and treating various diseases. However, these images often happen to be of too poor quality, leading to decreased efficiency, extra expenses, and even incorrect diagnoses. Therefore, we propose a retinal image enhancement method using a vision transformer and convolutional neural network. It builds a cycle-consistent generative adversarial network that relies on unpaired datasets. It consists of two generators that translate images from one domain to another (e.g., low- to high-quality and vice versa), playing an adversarial game with two discriminators. Generators produce indistinguishable images for discriminators that predict the original images from generated ones. Generators are a combination of vision transformer (ViT) encoder and convolutional neural network (CNN) decoder. Discriminators include traditional CNN encoders. The resulting improved images have been tested quantitatively using such evaluation metrics as peak signal-to-noise ratio (PSNR), structural similarity index measure (SSIM), and qualitatively, i.e., vessel segmentation. The proposed method successfully reduces the adverse effects of blurring, noise, illumination disturbances, and color distortions while significantly preserving structural and color information. Experimental results show the superiority of the proposed method. Our testing PSNR is 31.138 dB for the first and 27.798 dB for the second dataset. Testing SSIM is 0.919 and 0.904, respectively.

arxiv情報

著者 Alnur Alimanov,Md Baharul Islam
発行日 2023-03-03 14:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク