要約
知識蒸留 (KD) は、暗い知識を大規模な教師から小規模な生徒ネットワークに転送する際に不可欠です。これにより、生徒は教師よりもはるかに効率的でありながら同等の精度を得ることができます。
しかし、既存の KD 手法は、対象のタスクに特化して訓練された大規模な教師に依存しており、柔軟性が非常に低く非効率的です。
この論文では、SSL で事前トレーニングされたモデルが効果的に教師として機能し、そのダーク ナレッジは、特徴が存在する座標系または線形部分空間によって捕捉できると主張します。その場合、教師の前方パスは 1 回だけ必要になります。
次に、学生ネットワークに合わせて座標系 (TCS) を調整します。
当社の TCS メソッドは教師不要で多様なアーキテクチャに適用でき、KD や実践的な少数ショット学習に適しており、大きな容量ギャップでクロスアーキテクチャの蒸留が可能です。
実験の結果、TCS は最先端の KD 手法よりも大幅に高い精度を達成しながら、トレーニング時間と GPU メモリ コストのおよそ半分しか必要としないことがわかりました。
要約(オリジナル)
Knowledge Distillation (KD) is essential in transferring dark knowledge from a large teacher to a small student network, such that the student can be much more efficient than the teacher but with comparable accuracy. Existing KD methods, however, rely on a large teacher trained specifically for the target task, which is both very inflexible and inefficient. In this paper, we argue that a SSL-pretrained model can effectively act as the teacher and its dark knowledge can be captured by the coordinate system or linear subspace where the features lie in. We then need only one forward pass of the teacher, and then tailor the coordinate system (TCS) for the student network. Our TCS method is teacher-free and applies to diverse architectures, works well for KD and practical few-shot learning, and allows cross-architecture distillation with large capacity gap. Experiments show that TCS achieves significantly higher accuracy than state-of-the-art KD methods, while only requiring roughly half of their training time and GPU memory costs.
arxiv情報
著者 | Junjie Zhou,Ke Zhu,Jianxin Wu |
発行日 | 2024-12-12 15:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google