RPLHR-CT Dataset and Transformer Baseline for Volumetric Super-Resolution from CT Scans

要約

臨床診療では、取得時間が短く、保存コストが低いため、面貫通解像度の低い異方性体積医療画像が一般的に使用されます。
それにもかかわらず、粗い解像度は、医師またはコンピュータ支援診断アルゴリズムのいずれかによる医学的診断の困難につながる可能性があります。
深層学習ベースの体積超解像(SR)法は、畳み込みニューラルネットワーク(CNN)を中核として、解像度を向上させるための実行可能な方法です。
最近の進歩にもかかわらず、これらのメソッドは、コンテンツの関連性を無視し、長距離の依存関係を効果的にモデル化できない畳み込み演算子の固有のプロパティによって制限されています。
さらに、既存の方法のほとんどは、トレーニングと評価に疑似ペアボリュームを使用します。疑似低解像度(LR)ボリュームは、対応する高解像度(HR)の単純な劣化によって生成されます。
ただし、疑似LRボリュームと実際のLRボリュームの間のドメインのギャップにより、実際にはこれらのメソッドのパフォーマンスが低下します。
このホワイトペーパーでは、ボリュームSRのベンチマークとして最初のパブリックリアルペアデータセットRPLHR-CTを構築し、4つの最先端のCNNベースの方法を再実装することでベースライン結果を提供します。
CNNの固有の欠点を考慮して、畳み込みを完全に省いた、注意メカニズムに基づく変圧器の体積超解像ネットワーク(TVSRN)も提案します。
これは、CTボリュームSRに純粋なトランスを使用する最初の研究です。
実験結果は、TVSRNがPSNRとSSIMの両方ですべてのベースラインを大幅に上回っていることを示しています。
さらに、TVSRNメソッドは、画質、パラメーターの数、および実行時間の間のより良いトレードオフを実現します。
データとコードはhttps://github.com/smilenaxx/RPLHR-CTで入手できます。

要約(オリジナル)

In clinical practice, anisotropic volumetric medical images with low through-plane resolution are commonly used due to short acquisition time and lower storage cost. Nevertheless, the coarse resolution may lead to difficulties in medical diagnosis by either physicians or computer-aided diagnosis algorithms. Deep learning-based volumetric super-resolution (SR) methods are feasible ways to improve resolution, with convolutional neural networks (CNN) at their core. Despite recent progress, these methods are limited by inherent properties of convolution operators, which ignore content relevance and cannot effectively model long-range dependencies. In addition, most of the existing methods use pseudo-paired volumes for training and evaluation, where pseudo low-resolution (LR) volumes are generated by a simple degradation of their high-resolution (HR) counterparts. However, the domain gap between pseudo- and real-LR volumes leads to the poor performance of these methods in practice. In this paper, we build the first public real-paired dataset RPLHR-CT as a benchmark for volumetric SR, and provide baseline results by re-implementing four state-of-the-art CNN-based methods. Considering the inherent shortcoming of CNN, we also propose a transformer volumetric super-resolution network (TVSRN) based on attention mechanisms, dispensing with convolutions entirely. This is the first research to use a pure transformer for CT volumetric SR. The experimental results show that TVSRN significantly outperforms all baselines on both PSNR and SSIM. Moreover, the TVSRN method achieves a better trade-off between the image quality, the number of parameters, and the running time. Data and code are available at https://github.com/smilenaxx/RPLHR-CT.

arxiv情報

著者 Pengxin Yu,Haoyue Zhang,Han Kang,Wen Tang,Corey W. Arnold,Rongguo Zhang
発行日 2022-06-13 15:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク