Distribution Shift Matters for Knowledge Distillation with Webly Collected Images

要約

知識の蒸留は、事前にトレーニングされた教師のネットワークから軽量の学生ネットワークを学習することを目的としています。
実際には、プライバシーの問題やデータ管理上の考慮事項により、元のトレーニング データが利用できない場合、既存の知識の蒸留方法は通常実行できません。
したがって、インターネットからトレーニング インスタンスを収集する、データフリーの知識蒸留アプローチが提案されました。
しかし、そのほとんどは、元のトレーニング データと Web で収集されたデータからのインスタンス間の共通の分布の変化を無視しており、トレーニングを受けた学生のネットワークの信頼性に影響を与えています。
この問題を解決するために、我々は「異なる分布間の知識蒸留」(KD$^{3}$)と呼ばれる、3つのコンポーネントからなる新しい方法を提案します。
具体的には、まず、教師ネットワークと生徒ネットワークの組み合わせた予測に従って、Web 上で収集されたデータから有用なトレーニング インスタンスを動的に選択します。
続いて、知識の記憶のために 2 つのネットワークの重み付けされた特徴と分類子パラメーターの両方を調整します。
同時に、MixDistribution と呼ばれる新しい対照的な学習ブロックも構築し、インスタンスのアライメントなどの新しい分布で摂動データを生成し、スチューデント ネットワークが分布不変表現をさらに学習できるようにします。
さまざまなベンチマーク データセットに対する集中的な実験により、私たちが提案する KD$^{3}$ が最先端のデータフリーの知識蒸留アプローチを上回るパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Knowledge distillation aims to learn a lightweight student network from a pre-trained teacher network. In practice, existing knowledge distillation methods are usually infeasible when the original training data is unavailable due to some privacy issues and data management considerations. Therefore, data-free knowledge distillation approaches proposed to collect training instances from the Internet. However, most of them have ignored the common distribution shift between the instances from original training data and webly collected data, affecting the reliability of the trained student network. To solve this problem, we propose a novel method dubbed “Knowledge Distillation between Different Distributions’ (KD$^{3}$), which consists of three components. Specifically, we first dynamically select useful training instances from the webly collected data according to the combined predictions of teacher network and student network. Subsequently, we align both the weighted features and classifier parameters of the two networks for knowledge memorization. Meanwhile, we also build a new contrastive learning block called MixDistribution to generate perturbed data with a new distribution for instance alignment, so that the student network can further learn a distribution-invariant representation. Intensive experiments on various benchmark datasets demonstrate that our proposed KD$^{3}$ can outperform the state-of-the-art data-free knowledge distillation approaches.

arxiv情報

著者 Jialiang Tang,Shuo Chen,Gang Niu,Masashi Sugiyama,Chen Gong
発行日 2023-07-21 10:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク