The Multiscale Surface Vision Transformer

要約

表面メッシュは、人間の大脳皮質の構造および機能情報を表すのに好まれる領域ですが、その複雑なトポロジーとジオメトリは、ディープ ラーニング分析に大きな課題をもたらします。
トランスフォーマーは、特に畳み込み操作の変換が重要な構造の場合、シーケンスからシーケンスへの学習のためのドメインに依存しないアーキテクチャとして優れていますが、自己注意操作の二次コストは、多くの高密度予測タスクの障害のままです。
ビジョン トランスフォーマーを使用した階層モデリングの最新の進歩に着想を得て、サーフェス ディープ ラーニングのバックボーン アーキテクチャとしてマルチスケール サーフェス ビジョン トランスフォーマー (MS-SiT) を導入します。
セルフアテンション メカニズムはローカル メッシュ ウィンドウ内に適用され、基礎となるデータの高解像度サンプリングを可能にし、シフト ウィンドウ戦略はウィンドウ間の情報の共有を改善します。
隣接するパッチが連続的にマージされるため、MS-SiT はあらゆる予測タスクに適した階層表現を学習できます。
結果は、MS-SiT が、Developing Human Connectome Project (dHCP) データセットを使用した新生児表現型予測タスクの既存の表面深層学習方法よりも優れていることを示しています。
さらに、MS-SiT バックボーンを表面セグメンテーション用の U 字型アーキテクチャに構築すると、英国バイオバンク (UKB) と手動で注釈を付けた MindBoggle データセットを使用した皮質分割での競争力のある結果が示されます。
コードとトレーニング済みモデルは、https://github.com/metrics-lab/surface-vision-transformers で公開されています。

要約(オリジナル)

Surface meshes are a favoured domain for representing structural and functional information on the human cortex, but their complex topology and geometry pose significant challenges for deep learning analysis. While Transformers have excelled as domain-agnostic architectures for sequence-to-sequence learning, notably for structures where the translation of the convolution operation is non-trivial, the quadratic cost of the self-attention operation remains an obstacle for many dense prediction tasks. Inspired by some of the latest advances in hierarchical modelling with vision transformers, we introduce the Multiscale Surface Vision Transformer (MS-SiT) as a backbone architecture for surface deep learning. The self-attention mechanism is applied within local-mesh-windows to allow for high-resolution sampling of the underlying data, while a shifted-window strategy improves the sharing of information between windows. Neighbouring patches are successively merged, allowing the MS-SiT to learn hierarchical representations suitable for any prediction task. Results demonstrate that the MS-SiT outperforms existing surface deep learning methods for neonatal phenotyping prediction tasks using the Developing Human Connectome Project (dHCP) dataset. Furthermore, building the MS-SiT backbone into a U-shaped architecture for surface segmentation demonstrates competitive results on cortical parcellation using the UK Biobank (UKB) and manually-annotated MindBoggle datasets. Code and trained models are publicly available at https://github.com/metrics-lab/surface-vision-transformers .

arxiv情報

著者 Simon Dahan,Abdulah Fawaz,Mohamed A. Suliman,Mariana da Silva,Logan Z. J. Williams,Daniel Rueckert,Emma C. Robinson
発行日 2023-03-21 15:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, q-bio.NC パーマリンク