要約
畳み込みニューラル ネットワーク (ConvNet) と Transformer の統合は、両方のモデルの長所と大きなパラメーター空間を活用して、画像レジストレーションの有力な候補として浮上しています。
しかし、脳の MRI ボリュームをグリッドまたはシーケンス構造として扱うこのハイブリッド モデルは、解剖学的接続、多様な脳領域、脳の内部構造に寄与する重要な接続を正確に表現するという課題に直面しています。
このモデルに関連する計算コストと GPU メモリの使用量に関しても懸念が生じます。
これらの問題に取り組むために、軽量のハイブリッド スパース グラフ アテンション ネットワーク (H-SGANet) が開発されました。
このネットワークには、所定の解剖学的接続を備えたビジョン グラフ ニューラル ネットワーク (ViG) に基づく中心メカニズムであるスパース グラフ アテンション (SGA) が組み込まれています。
SGA モジュールはモデルの受容野を拡張し、ネットワークにシームレスに統合します。
ハイブリッド ネットワークの利点をさらに高めるために、Separable Self-Attention (SSA) が強化されたトークン ミキサーとして採用され、深さ方向の畳み込みと統合されて SSAFormer を構成します。
この戦略的統合は、長距離の依存関係をより効果的に抽出するように設計されています。
ConvNet-ViG-Transformer のハイブリッド モデルとして、H-SGANet は体積医療画像の登録に 3 つの利点を提供します。
ハイブリッド機能融合レイヤーとエンドツーエンドの学習フレームワークを通じて、固定画像と動画を同時に最適化します。
同様のパラメーター数を持つモデルである VoxelMorph と比較して、H-SGANet は、OASIS データセットと LPBA40 データセットの Dice スコアでそれぞれ 3.5% と 1.5% の大幅なパフォーマンス向上を示しています。
要約(オリジナル)
The integration of Convolutional Neural Network (ConvNet) and Transformer has emerged as a strong candidate for image registration, leveraging the strengths of both models and a large parameter space. However, this hybrid model, treating brain MRI volumes as grid or sequence structures, faces challenges in accurately representing anatomical connectivity, diverse brain regions, and vital connections contributing to the brain’s internal architecture. Concerns also arise regarding the computational expense and GPU memory usage associated with this model. To tackle these issues, a lightweight hybrid sparse graph attention network (H-SGANet) has been developed. This network incorporates a central mechanism, Sparse Graph Attention (SGA), based on a Vision Graph Neural Network (ViG) with predetermined anatomical connections. The SGA module expands the model’s receptive field and seamlessly integrates into the network. To further amplify the advantages of the hybrid network, the Separable Self-Attention (SSA) is employed as an enhanced token mixer, integrated with depth-wise convolution to constitute SSAFormer. This strategic integration is designed to more effectively extract long-range dependencies. As a hybrid ConvNet-ViG-Transformer model, H-SGANet offers threefold benefits for volumetric medical image registration. It optimizes fixed and moving images concurrently through a hybrid feature fusion layer and an end-to-end learning framework. Compared to VoxelMorph, a model with a similar parameter count, H-SGANet demonstrates significant performance enhancements of 3.5% and 1.5% in Dice score on the OASIS dataset and LPBA40 dataset, respectively.
arxiv情報
著者 | Yufeng Zhou,Wenming Cao |
発行日 | 2024-08-29 17:11:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google