ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised Medical Image Representations

要約

自己教師あり学習は、注釈なしでデータからデータ駆動型の表現を学習するため、ますます注目を集めています。
He et al. によるビジョン トランスフォーマー ベースのオートエンコーダー (ViT-AE)。
(2021) は、意味のある潜在空間を学習するためにパッチマスキング戦略を採用する最近の自己教師あり学習手法です。
このホワイト ペーパーでは、2D と 3D の両方の医用画像をより効果的に表現するために、ViT-AE (愛称 ViT-AE++) の改善に焦点を当てています。
トレーニング段階での表現を強化するために、2 つの新しい損失関数を提案します。
最初の損失項は、構造化された依存関係を考慮して自己再構築を改善し、間接的に表現を改善することを目的としています。
2 番目の損失項は、対照的な損失を利用して、ランダムにマスクされた 2 つのビューからの表現を直接最適化します。
独立した貢献として、私たちは ViT-AE++ をボリュメトリック医療画像用の 3D ファッションに拡張しました。
自然画像と医用画像の両方で ViT-AE++ を広く評価し、通常の ViT-AE よりも一貫して改善され、他の対照的な学習アプローチよりも優れていることを示しています。

要約(オリジナル)

Self-supervised learning has attracted increasing attention as it learns data-driven representation from data without annotations. Vision transformer-based autoencoder (ViT-AE) by He et al. (2021) is a recent self-supervised learning technique that employs a patch-masking strategy to learn a meaningful latent space. In this paper, we focus on improving ViT-AE (nicknamed ViT-AE++) for a more effective representation of both 2D and 3D medical images. We propose two new loss functions to enhance the representation during the training stage. The first loss term aims to improve self-reconstruction by considering the structured dependencies and hence indirectly improving the representation. The second loss term leverages contrastive loss to directly optimize the representation from two randomly masked views. As an independent contribution, we extended ViT-AE++ to a 3D fashion for volumetric medical images. We extensively evaluate ViT-AE++ on both natural images and medical images, demonstrating consistent improvement over vanilla ViT-AE and its superiority over other contrastive learning approaches.

arxiv情報

著者 Chinmay Prabhakar,Hongwei Bran Li,Jiancheng Yang,Suprosana Shit,Benedikt Wiestler,Bjoern Menze
発行日 2023-01-18 09:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク