要約
知識の蒸留は、大規模モデルと軽量モデルの間の表現の不一致を埋めるための非常に効果的な方法として浮上しました。
一般的なアプローチには、教師モデルから抽出された知識と生徒モデルによって学習された知識との間の乖離または距離を最小限に抑えるために、適切な指標を活用することが含まれます。
Centered Kernel Alignment (CKA) は、表現の類似性を測定するために広く使用されており、いくつかの知識抽出方法に適用されています。
しかし、これらの方法は複雑であり、CKA の本質を明らかにすることができず、したがって、CKA を使用して簡単かつ効果的な蒸留を適切に達成する方法という疑問には答えられません。
この論文ではまず、CKA の有効性を説明するための理論的観点を提供します。これは、CKA を最大平均差異 (MMD) の上限と定数項から切り離します。
これに基づいて、CKA と MMD の間の接続を実質的に確立する新しい Relation-Centered Kernel Alignment~(RCKA) フレームワークを提案します。
さらに、各タスクの特性に基づいて CKA のアプリケーションを動的にカスタマイズし、以前の方法よりも少ない計算ソースでありながら同等のパフォーマンスを実現します。
CIFAR-100、ImageNet-1k、および MS-COCO での広範な実験は、私たちの手法が画像分類と物体検出に関してほぼすべての教師と生徒のペアで最先端のパフォーマンスを達成することを実証し、私たちのアプローチの有効性を検証しています。
。
要約(オリジナル)
Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches.
arxiv情報
著者 | Zikai Zhou,Yunhang Shen,Shitong Shao,Linrui Gong,Shaohui Lin |
発行日 | 2024-02-28 15:19:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google