要約
知識の蒸留により、通常、教師と生徒のロジットの間のカルバック – leibler(kl)の発散が最小限に抑えられます。
ただし、KLの発散を最適化することは、学生にとって挑戦的であり、多くの場合、最適下のソリューションにつながります。
さらに、KL Divergenceスケールによって誘導される勾配が教師ロジットの大きさで誘導され、それにより低確率チャネルの更新が減少することを示しています。
この不均衡は、クラス間情報の転送を弱め、学生が達成できるパフォーマンスの改善を制限します。
この問題を軽減するために、ロジットベースの蒸留フレームワークにシームレスに統合できるKendallの$ \ Tau $係数に基づいて、プラグアンドプレイの補助ランキング損失を提案します。
クラス間のリレーショナル情報を提供しながら、勾配を低確率チャネルに再調整します。
提案されたランキング損失は、スケーリングをチャネルすることが主に不変であり、KL発散の客観的な客観的なものを最適化し、置換ではなく自然な補体になることを実証します。
CIFAR-100、Imagenet、およびCoCoデータセットの広範な実験、およびさまざまなCNNおよびVITの教師学生アーキテクチャの組み合わせは、プラグアンドプレイランキングの損失が一貫して複数の蒸留ベースラインのパフォーマンスを高めることを示しています。
コードはhttps://github.com/overnightea/rankingloss-kdで入手できます
要約(オリジナル)
Knowledge distillation typically minimizes the Kullback-Leibler (KL) divergence between teacher and student logits. However, optimizing the KL divergence can be challenging for the student and often leads to sub-optimal solutions. We further show that gradients induced by KL divergence scale with the magnitude of the teacher logits, thereby diminishing updates on low-probability channels. This imbalance weakens the transfer of inter-class information and in turn limits the performance improvements achievable by the student. To mitigate this issue, we propose a plug-and-play auxiliary ranking loss based on Kendall’s $\tau$ coefficient that can be seamlessly integrated into any logit-based distillation framework. It supplies inter-class relational information while rebalancing gradients toward low-probability channels. We demonstrate that the proposed ranking loss is largely invariant to channel scaling and optimizes an objective aligned with that of KL divergence, making it a natural complement rather than a replacement. Extensive experiments on CIFAR-100, ImageNet, and COCO datasets, as well as various CNN and ViT teacher-student architecture combinations, demonstrate that our plug-and-play ranking loss consistently boosts the performance of multiple distillation baselines. Code is available at https://github.com/OvernighTea/RankingLoss-KD
arxiv情報
著者 | Yuchen Guan,Runxi Cheng,Kang Liu,Chun Yuan |
発行日 | 2025-06-16 15:47:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google