要約
ビジョン トランスフォーマー (ViT) は、長距離相関を捕捉することにより、医療画像セマンティック セグメンテーション (MISS) において有望であることが示されています。
ただし、ViT は、局所的な空間情報を効果的にモデル化するのに苦労することがよくあります。これは、特に大規模な事前トレーニングなしで小規模なデータセットに適用する場合、解剖学的詳細を正確にセグメント化するために不可欠です。
学習可能なラジオミック機能を組み込むことで Transformer ベースのモデルを強化する新しいアーキテクチャである Gaussian Convolutional Swin Network (GLoG-CSUnet) の Gabor と Laplacian を紹介します。
このアプローチでは、動的適応ガボール フィルタとガウシアン ラプラシアン (LoG) フィルタを統合して、テクスチャ、エッジ、境界情報をキャプチャし、Transformer モデルによって処理されるフィーチャ表現を強化します。
私たちの手法は、Transformer の長距離依存関係モデリングと、Gabor および LoG 特徴のテクスチャ分析機能を独自に組み合わせたものです。
Synapse 多臓器データセットと ACDC 心臓セグメンテーション データセットで評価した GLoG-CSUnet は、最先端のモデルと比較して大幅な改善を示し、最小限の計算オーバーヘッドで Synapse の Dice スコアが 1.14%、ACDC で 0.99% 増加しました (
追加パラメータはそれぞれ 15 個と 30 個だけです)。
GLoG-CSUnet の柔軟な設計により、さまざまなベース モデルとの統合が可能になり、医用画像解析用の Transformer アーキテクチャにラジオミクスにヒントを得た特徴抽出を組み込むための有望なアプローチが提供されます。
コードの実装は、GitHub (https://github.com/HAAIL/GLoG-CSUnet) で入手できます。
要約(オリジナル)
Vision Transformers (ViTs) have shown promise in medical image semantic segmentation (MISS) by capturing long-range correlations. However, ViTs often struggle to model local spatial information effectively, which is essential for accurately segmenting fine anatomical details, particularly when applied to small datasets without extensive pre-training. We introduce Gabor and Laplacian of Gaussian Convolutional Swin Network (GLoG-CSUnet), a novel architecture enhancing Transformer-based models by incorporating learnable radiomic features. This approach integrates dynamically adaptive Gabor and Laplacian of Gaussian (LoG) filters to capture texture, edge, and boundary information, enhancing the feature representation processed by the Transformer model. Our method uniquely combines the long-range dependency modeling of Transformers with the texture analysis capabilities of Gabor and LoG features. Evaluated on the Synapse multi-organ and ACDC cardiac segmentation datasets, GLoG-CSUnet demonstrates significant improvements over state-of-the-art models, achieving a 1.14% increase in Dice score for Synapse and 0.99% for ACDC, with minimal computational overhead (only 15 and 30 additional parameters, respectively). GLoG-CSUnet’s flexible design allows integration with various base models, offering a promising approach for incorporating radiomics-inspired feature extraction in Transformer architectures for medical image analysis. The code implementation is available on GitHub at: https://github.com/HAAIL/GLoG-CSUnet.
arxiv情報
著者 | Niloufar Eghbali,Hassan Bagher-Ebadian,Tuka Alhanai,Mohammad M. Ghassemi |
発行日 | 2025-01-08 18:33:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google