Surface Masked AutoEncoder: Self-Supervision for Cortical Imaging Data

要約

自己監視は、ネットワークが小さなデータセットでトレーニングされる場合に一般化が制限される、ビジョン トランスフォーマー アーキテクチャにおける誘導バイアスの欠如に対処する手段として広く検討されてきました。
これは、表現型が複雑で不均一であるにもかかわらず、利用可能なデータセットのサイズが限られている皮質イメージングのコンテキストにおいて非常に重要です。
この論文は、ビジョン トランスフォーマーを表面メッシュに変換する最近の進歩に基づいて構築されており、皮質表面学習に対する Masked AutoEncoder (MAE) 自己監視の可能性を調査しています。
提案された方法は、入力のマスクされたバージョンから表面データを再構成することにより、皮質構造を効果的にモデル化し、下流のタスクのパフォーマンスの向上につながる強力な表現を学習します。
私たちは、開発中のヒューマン コネクトーム プロジェクト (dHCP) を使用して皮質表現型退行に対するアプローチを評価し、事前トレーニングにより、最初からトレーニングされたモデルと比較して、パフォーマンスが 26% 向上し、収束が 80% 速くなることを実証しました。
さらに、英国バイオバンク (UKB) などの大規模なデータセットでビジョン トランスフォーマー モデルを事前トレーニングすることで、低データ シナリオでの微調整のための堅牢な表現の取得が可能になることを確立します。
私たちのコードと事前トレーニングされたモデルは、\url{https://github.com/metrics-lab/surface-vision-transformers} で公開されています。

要約(オリジナル)

Self-supervision has been widely explored as a means of addressing the lack of inductive biases in vision transformer architectures, which limits generalisation when networks are trained on small datasets. This is crucial in the context of cortical imaging, where phenotypes are complex and heterogeneous, but the available datasets are limited in size. This paper builds upon recent advancements in translating vision transformers to surface meshes and investigates the potential of Masked AutoEncoder (MAE) self-supervision for cortical surface learning. By reconstructing surface data from a masked version of the input, the proposed method effectively models cortical structure to learn strong representations that translate to improved performance in downstream tasks. We evaluate our approach on cortical phenotype regression using the developing Human Connectome Project (dHCP) and demonstrate that pre-training leads to a 26\% improvement in performance, with an 80\% faster convergence, compared to models trained from scratch. Furthermore, we establish that pre-training vision transformer models on large datasets, such as the UK Biobank (UKB), enables the acquisition of robust representations for finetuning in low-data scenarios. Our code and pre-trained models are publicly available at \url{https://github.com/metrics-lab/surface-vision-transformers}.

arxiv情報

著者 Simon Dahan,Mariana da Silva,Daniel Rueckert,Emma C Robinson
発行日 2023-08-10 10:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク