MS-DINO: Efficient Distributed Training of Vision Transformer Foundation Model in Medical Domain through Masked Sampling

要約

近年、医療領域における深層学習の成功にもかかわらず、医療領域におけるデータ不足の問題は、プライバシーやデータ所有権の問題により深刻化している。この問題を緩和するために、連合学習を含む分散学習アプローチが研究されているが、煩雑な通信オーバーヘッドやプライバシー保護の弱点に悩まされている。そこで、本論文では、視覚変換器に特化した暗号化方式を用いて、連続した通信を行わずにプライバシーを強化できる、視覚変換器のための自己教師付きマスクサンプリング蒸留法を提案する。本手法の有効性を、2つの医療領域データと2つの異なる下流タスクに対する広範な実験により実証し、既存の分散学習戦略や微調整のみのベースラインで得られた性能よりも優れた性能を示す。提案手法で構築された自己教師付きモデルは、モダリティの一般的な意味理解を持つことができるため、様々な医療タスクのためのタスクに依存しない基礎モデルとしての可能性を示し、医療領域における適用性を拡大することができる。

要約(オリジナル)

In spite of the recent success of deep learning in the medical domain, the problem of data scarcity in the medical domain gets aggravated due to privacy and data ownership issues. Distributed learning approaches including federated learning have been studied to alleviate the problems, but they suffer from cumbersome communication overheads and weakness in privacy protection. To address this, here we propose a self-supervised masked sampling distillation method for vision transformer that can be performed without continuous communication but still enhance privacy using a vision transformer-specific encryption method. The effectiveness of our method is demonstrated with extensive experiments on two medical domain data and two different downstream tasks, showing superior performances than those obtained with the existing distributed learning strategy as well as the fine-tuning only baseline. As the self-supervised model built with the proposed method is capable of having a general semantic understanding of the modality, we demonstrate its potential as a task-agnostic foundation model for various medical tasks, widening the applicability in the medical domain.

arxiv情報

著者 Sangjoon Park,Ik-Jae Lee,Jun Won Kim,Jong Chul Ye
発行日 2023-01-05 13:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク