要約
知識蒸留 (KD) は、教師からの知識に基づいて学生のパフォーマンスを向上させることを目的として、ディープ ラーニングの画像分類タスクで活発に研究されています。
ただし、スカラー応答変数を使用して画像回帰に KD を適用することはほとんど研究されておらず、分類タスクと回帰タスクの両方に適用できる KD メソッドはまだ存在しません。
さらに、既存の KD メソッドでは、実践者が教師と生徒のアーキテクチャを慎重に選択または調整する必要があることが多く、これらのメソッドは実際には柔軟性が低くなります。
上記の問題に統一された方法で対処するために、cGAN-KD と呼ばれる cGAN に基づく包括的な KD フレームワークを提案します。
cGAN-KD は、既存の KD メソッドとは根本的に異なり、cGAN で生成されたサンプルを介して教師モデルから生徒モデルに知識を抽出して転送します。
この新しいメカニズムにより、cGAN-KD は分類タスクと回帰タスクの両方に適しており、他の KD メソッドと互換性があり、教師と生徒のアーキテクチャの影響を受けません。
この作業では、cGAN-KD フレームワークでトレーニングされた学生モデルのエラー バウンドが導き出され、cGAN-KD が効果的である理由の理論を提供し、cGAN-KD の実用的な実装を導きます。
CIFAR-100 と ImageNet-100 での広範な実験は、最先端の KD メソッドを cGAN-KD フレームワークと組み合わせて、新しい最先端の技術を生み出すことができることを示しています。
さらに、Steering Angle と UTKFace に関する実験は、既存の KD メソッドが適用できない画像回帰タスクにおける cGAN-KD の有効性を示しています。
要約(オリジナル)
Knowledge distillation (KD) has been actively studied for image classification tasks in deep learning, aiming to improve the performance of a student based on the knowledge from a teacher. However, applying KD in image regression with a scalar response variable has been rarely studied, and there exists no KD method applicable to both classification and regression tasks yet. Moreover, existing KD methods often require a practitioner to carefully select or adjust the teacher and student architectures, making these methods less flexible in practice. To address the above problems in a unified way, we propose a comprehensive KD framework based on cGANs, termed cGAN-KD. Fundamentally different from existing KD methods, cGAN-KD distills and transfers knowledge from a teacher model to a student model via cGAN-generated samples. This novel mechanism makes cGAN-KD suitable for both classification and regression tasks, compatible with other KD methods, and insensitive to the teacher and student architectures. An error bound for a student model trained in the cGAN-KD framework is derived in this work, providing a theory for why cGAN-KD is effective as well as guiding the practical implementation of cGAN-KD. Extensive experiments on CIFAR-100 and ImageNet-100 show that we can combine state of the art KD methods with the cGAN-KD framework to yield a new state of the art. Moreover, experiments on Steering Angle and UTKFace demonstrate the effectiveness of cGAN-KD in image regression tasks, where existing KD methods are inapplicable.
arxiv情報
著者 | Xin Ding,Yongwei Wang,Zuheng Xu,Z. Jane Wang,William J. Welch |
発行日 | 2022-12-27 04:53:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google