The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers

要約

知識の蒸留は、軽量ビジョン モデルをトレーニングするための効果的な方法です。
ただし、サンプルをトレーニングするために教師の監督を得るには、特にビジョン トランスフォーマー (ViT) のような大規模モデルの場合、コストがかかることがよくあります。
この論文では、教師に与えられた入力トークンの一部をマスクすることで、ViT 蒸留の監視コストを削減するための単純なフレームワークを開発します。
入力トークンをマスクすることにより、教師パラメータやアーキテクチャを変更することなく、マスクされたトークンに関連付けられた計算をスキップできます。
生徒の注意力スコアが最も低いマスキング パッチは非常に効果的であり、生徒の精度をまったく低下させることなく教師の FLOP を最大 50% 節約できますが、他のマスキング基準では効率が最適以下に向上することがわかりました。
詳細な分析を通じて、生徒主導のマスキングが生徒に優れたカリキュラムを提供し、初期段階では教師の監督に従うのが容易になり、後の段階では困難になることが明らかになりました。

要約(オリジナル)

Knowledge distillation is an effective method for training lightweight vision models. However, acquiring teacher supervision for training samples is often costly, especially from large-scale models like vision transformers (ViTs). In this paper, we develop a simple framework to reduce the supervision cost of ViT distillation: masking out a fraction of input tokens given to the teacher. By masking input tokens, one can skip the computations associated with the masked tokens without requiring any change to teacher parameters or architecture. We find that masking patches with the lowest student attention scores is highly effective, saving up to 50% of teacher FLOPs without any drop in student accuracy, while other masking criterion leads to suboptimal efficiency gains. Through in-depth analyses, we reveal that the student-guided masking provides a good curriculum to the student, making teacher supervision easier to follow during the early stage and challenging in the later stage.

arxiv情報

著者 Seungwoo Son,Jegwang Ryu,Namhoon Lee,Jaeho Lee
発行日 2024-09-27 14:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク