Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、エネルギー効率が高く生物学的にもっともらしい計算のための有望なアプローチとして浮上しています。
ただし、既存のトレーニング方法の制限と固有のモデルの制約により、SNNは人工ニューラルネットワーク(ANN)と比較した場合、パフォーマンスのギャップを示すことがよくあります。
知識蒸留(KD)は、このギャップを軽減するために、ANN教師モデルからSNN学生モデルに知識を移転する手法として調査されています。
従来のKDメソッドは通常、Kullback-Leibler(KL)発散を使用して出力分布を調整します。
ただし、従来のKLベースのアプローチは、SNNのユニークな特性を完全に活用することができません。これは、低確率の予測を無視しながら高プロビーズ性の予測を過度に強調し、最適ではない一般化につながるためです。
これに対処するために、SNNSの新しいKDメソッドであるHead-Tail Aware Kullback-Leibler(HTA-KL)Divergenceを提案します。
HTA-KLは、累積確率ベースのマスクを導入して、高速度領域と低確率領域を動的に区別します。
バランスの取れた知識移転を確保し、全体的なパフォーマンスを向上させるために、適応ウェイトを割り当てます。
フォワードKL(FKL)とリバースKL(RKL)の発散を統合することにより、私たちの方法は、分布のヘッド領域とテール領域の両方を効果的に整列させます。
CIFAR-10、CIFAR-100、および小さなImagenetデータセットでの方法を評価します。
この方法は、タイムステップが少ないほとんどのデータセットで既存のメソッドを上回っています。

要約(オリジナル)

Spiking Neural Networks (SNNs) have emerged as a promising approach for energy-efficient and biologically plausible computation. However, due to limitations in existing training methods and inherent model constraints, SNNs often exhibit a performance gap when compared to Artificial Neural Networks (ANNs). Knowledge distillation (KD) has been explored as a technique to transfer knowledge from ANN teacher models to SNN student models to mitigate this gap. Traditional KD methods typically use Kullback-Leibler (KL) divergence to align output distributions. However, conventional KL-based approaches fail to fully exploit the unique characteristics of SNNs, as they tend to overemphasize high-probability predictions while neglecting low-probability ones, leading to suboptimal generalization. To address this, we propose Head-Tail Aware Kullback-Leibler (HTA-KL) divergence, a novel KD method for SNNs. HTA-KL introduces a cumulative probability-based mask to dynamically distinguish between high- and low-probability regions. It assigns adaptive weights to ensure balanced knowledge transfer, enhancing the overall performance. By integrating forward KL (FKL) and reverse KL (RKL) divergence, our method effectively align both head and tail regions of the distribution. We evaluate our methods on CIFAR-10, CIFAR-100 and Tiny ImageNet datasets. Our method outperforms existing methods on most datasets with fewer timesteps.

arxiv情報

著者 Tianqing Zhang,Zixin Zhu,Kairong Yu,Hongwei Wang
発行日 2025-05-16 15:19:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク