All You Need in Knowledge Distillation Is a Tailored Coordinate System

要約

知識蒸留(KD)は、大規模な教師から小規模な学生ネットワークに暗い知識を転送するのに不可欠です。そうすれば、生徒は教師よりもはるかに効率的になりますが、同等の正確さがあります。
ただし、既存のKDメソッドは、ターゲットタスク専用に訓練された大規模な教師に依存しています。これは非常に柔軟性があり、非効率的です。
この論文では、SSLに基づいたモデルが教師として効果的に機能し、その暗い知識は、機能がある座標系または線形サブスペースによってキャプチャできると主張します。その後、教師の1つのフォワードパスしか必要ありません。
次に、学生ネットワークの座標系(TCS)を調整します。
TCSメソッドは教師がいないため、多様なアーキテクチャに適用され、KDおよび実用的な少数の学習に適しています。
実験では、TCSは最先端のKDメソッドよりも大幅に高い精度を達成し、トレーニング時間とGPUメモリコストの約半分しか必要としないことが示されています。

要約(オリジナル)

Knowledge Distillation (KD) is essential in transferring dark knowledge from a large teacher to a small student network, such that the student can be much more efficient than the teacher but with comparable accuracy. Existing KD methods, however, rely on a large teacher trained specifically for the target task, which is both very inflexible and inefficient. In this paper, we argue that a SSL-pretrained model can effectively act as the teacher and its dark knowledge can be captured by the coordinate system or linear subspace where the features lie in. We then need only one forward pass of the teacher, and then tailor the coordinate system (TCS) for the student network. Our TCS method is teacher-free and applies to diverse architectures, works well for KD and practical few-shot learning, and allows cross-architecture distillation with large capacity gap. Experiments show that TCS achieves significantly higher accuracy than state-of-the-art KD methods, while only requiring roughly half of their training time and GPU memory costs.

arxiv情報

著者 Junjie Zhou,Ke Zhu,Jianxin Wu
発行日 2025-02-12 10:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク