SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation

要約

自動医療画像セグメンテーションは、正確な診断に対する需要の高まり、個別化された治療計画への推進、機械学習アルゴリズム、特に深層学習手法の組み込みの進歩によって、現代の臨床現場にとってますます重要になってきています。
これらの手法では畳み込みニューラル ネットワーク (CNN) が普及していますが、コンピューター ビジョン タスクに対する Transformer ベースのモデルの注目すべき可能性がさらに認知されてきています。
CNN ベースのモデルと Transformer ベースのモデルの両方の利点を活用するために、医療画像セグメンテーション用のシンプルかつ効果的な UNet-Transformer (seUNet-Trans) モデルを提案します。
私たちのアプローチでは、UNet モデルは入力画像から複数の特徴マップを生成する特徴抽出器として設計されており、その後マップはブリッジ層に伝播されます。ブリッジ層は UNet と Transformer を順番に接続するために導入されます。
この段階では、モデルをより効率的にすることを目的として、位置埋め込みベクトルを使用しないピクセルレベルの埋め込み手法にアプローチします。
さらに、Transformer では空間削減に注意を払い、計算/メモリのオーバーヘッドを削減します。
UNet アーキテクチャとセルフ アテンション メカニズムを活用することで、私たちのモデルはローカルとグローバルの両方のコンテキスト情報を保持するだけでなく、入力要素間の長距離の依存関係をキャプチャすることもできます。
提案されたモデルは、その有効性を実証するために、ポリープ セグメンテーションを含む 7 つの医療画像セグメンテーション データセットで広範囲に実験されています。
これらのデータセットに関するいくつかの最先端のセグメンテーション モデルとの比較により、私たちが提案する seUNet-Trans ネットワークの優れたパフォーマンスがわかります。

要約(オリジナル)

Automated medical image segmentation is becoming increasingly crucial to modern clinical practice, driven by the growing demand for precise diagnosis, the push towards personalized treatment plans, and the advancements in machine learning algorithms, especially the incorporation of deep learning methods. While convolutional neural networks (CNN) have been prevalent among these methods, the remarkable potential of Transformer-based models for computer vision tasks is gaining more acknowledgment. To harness the advantages of both CNN-based and Transformer-based models, we propose a simple yet effective UNet-Transformer (seUNet-Trans) model for medical image segmentation. In our approach, the UNet model is designed as a feature extractor to generate multiple feature maps from the input images, then the maps are propagated into a bridge layer, which is introduced to sequentially connect the UNet and the Transformer. In this stage, we approach the pixel-level embedding technique without position embedding vectors, aiming to make the model more efficient. Moreover, we apply spatial-reduction attention in the Transformer to reduce the computational/memory overhead. By leveraging the UNet architecture and the self-attention mechanism, our model not only retains the preservation of both local and global context information but also is capable of capturing long-range dependencies between input elements. The proposed model is extensively experimented on seven medical image segmentation datasets including polyp segmentation to demonstrate its efficacy. Comparison with several state-of-the-art segmentation models on these datasets shows the superior performance of our proposed seUNet-Trans network.

arxiv情報

著者 Tan-Hanh Pham,Xianqi Li,Kim-Doang Nguyen
発行日 2023-11-10 15:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク