要約
ビジョン トランスフォーマーは、医療画像のセグメンテーションなどのビジョン タスクに効果的な深層学習モデルです。
ただし、畳み込みニューラル ネットワーク (CNN) とは異なり、効率性と並進不変性が欠けています。
3D 脳病変セグメンテーションにおける長距離相互作用をモデル化するために、U-Net アーキテクチャの全畳み込みトランスフォーマー ブロック バリアントを提案します。
私たちは、このモデルが 3 つの要素において最大の妥協点を提供していることを実証します。
CNNのパラメータ効率。
そして変圧器の有利な誘導バイアス。
私たちの公開実装は https://github.com/liamchalcroft/MDUNet で入手できます。
要約(オリジナル)
Vision transformers are effective deep learning models for vision tasks, including medical image segmentation. However, they lack efficiency and translational invariance, unlike convolutional neural networks (CNNs). To model long-range interactions in 3D brain lesion segmentation, we propose an all-convolutional transformer block variant of the U-Net architecture. We demonstrate that our model provides the greatest compromise in three factors: performance competitive with the state-of-the-art; parameter efficiency of a CNN; and the favourable inductive biases of a transformer. Our public implementation is available at https://github.com/liamchalcroft/MDUNet .
arxiv情報
著者 | Liam Chalcroft,Ruben Lourenço Pereira,Mikael Brudfors,Andrew S. Kayser,Mark D’Esposito,Cathy J. Price,Ioannis Pappas,John Ashburner |
発行日 | 2023-08-14 16:38:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google