要約
本稿では、視覚変換器(ViT)アーキテクチャの分散学習ソリューションを模索する。ViTは畳み込みニューラルネットワーク(CNN)と比較して、モデルサイズが大きく、計算量が多いため、連合学習(FL)には不向きである。分割学習(SL)は、モデルを分割し、分割層で隠れた表現を伝達することで、この問題を回避することができる。しかし、ViTのスマッシュデータは入力データと同程度の大きさであり、SLの通信効率を損なうとともに、データのプライバシーを侵害している。これらの問題を解決するために、我々は、元のスマッシュデータをランダムにパンチして圧縮することで、新しい形のCutSmashedデータを提案する。これを利用して、CutSmashedデータを通信するViTのための新しいSLフレームワーク(CutMixSLと呼ぶ)を開発します。CutMixSLは通信コストとプライバシー漏洩を低減するだけでなく、CutMixデータの拡張を本質的に含んでおり、精度とスケーラビリティを向上させます。シミュレーションの結果、CutMixSLは並列化されたSLや、FLとSLを統合したSplitFedなどのベースラインを上回る性能を持つことが確認されました。
要約(オリジナル)
This article seeks for a distributed learning solution for the visual transformer (ViT) architectures. Compared to convolutional neural network (CNN) architectures, ViTs often have larger model sizes, and are computationally expensive, making federated learning (FL) ill-suited. Split learning (SL) can detour this problem by splitting a model and communicating the hidden representations at the split-layer, also known as smashed data. Notwithstanding, the smashed data of ViT are as large as and as similar as the input data, negating the communication efficiency of SL while violating data privacy. To resolve these issues, we propose a new form of CutSmashed data by randomly punching and compressing the original smashed data. Leveraging this, we develop a novel SL framework for ViT, coined CutMixSL, communicating CutSmashed data. CutMixSL not only reduces communication costs and privacy leakage, but also inherently involves the CutMix data augmentation, improving accuracy and scalability. Simulations corroborate that CutMixSL outperforms baselines such as parallelized SL and SplitFed that integrates FL with SL.
arxiv情報
著者 | Sihun Baek,Jihong Park,Praneeth Vepakomma,Ramesh Raskar,Mehdi Bennis,Seong-Lyun Kim |
発行日 | 2022-07-01 07:00:30+00:00 |
arxivサイト | arxiv_id(pdf) |