要約
知識蒸留 (KD) には、事前トレーニングされた重い教師モデルから軽い生徒モデルへの知識の転送が含まれます。これにより、同等の有効性を維持しながら推論コストが削減されます。
従来の KD 手法は通常、教師モデルと生徒モデル間の均質性を前提としています。
しかし、テクノロジーが進歩するにつれて、初期の畳み込みニューラル ネットワーク (CNN) からビジョン トランスフォーマー (ViT)、およびマルチレベル パーセプトロン (MLP) に至るまで、さまざまなアーキテクチャが登場しました。
したがって、あらゆるアーキテクチャと互換性のあるユニバーサル KD フレームワークの開発が重要な研究テーマとなっています。
このペーパーでは、多様なアーキテクチャ間での機能の抽出を可能にする機能ベースのワン・フォー・オール (FOFA) KD フレームワークを紹介します。
私たちのフレームワークは 2 つの主要なコンポーネントで構成されています。
まず、生徒のフィードバックを組み込んだプロンプト チューニング ブロックを設計し、教師の機能を生徒モデルの学習プロセスに適応できるようにします。
第 2 に、異種アーキテクチャ間のビューの不一致の問題を軽減するために、リージョンを意識した注意を提案します。
これら 2 つのモジュールを活用することで、異種アーキテクチャ間で中間機能を効果的に抽出できます。
CIFAR、ImageNet、および COCO に関する広範な実験により、提案された方法の優位性が実証されました。
要約(オリジナル)
Knowledge distillation (KD) involves transferring knowledge from a pre-trained heavy teacher model to a lighter student model, thereby reducing the inference cost while maintaining comparable effectiveness. Prior KD techniques typically assume homogeneity between the teacher and student models. However, as technology advances, a wide variety of architectures have emerged, ranging from initial Convolutional Neural Networks (CNNs) to Vision Transformers (ViTs), and Multi-Level Perceptrons (MLPs). Consequently, developing a universal KD framework compatible with any architecture has become an important research topic. In this paper, we introduce a feature-based one-for-all (FOFA) KD framework to enable feature distillation across diverse architecture. Our framework comprises two key components. First, we design prompt tuning blocks that incorporate student feedback, allowing teacher features to adapt to the student model’s learning process. Second, we propose region-aware attention to mitigate the view mismatch problem between heterogeneous architecture. By leveraging these two modules, effective distillation of intermediate features can be achieved across heterogeneous architectures. Extensive experiments on CIFAR, ImageNet, and COCO demonstrate the superiority of the proposed method.
arxiv情報
著者 | Jhe-Hao Lin,Yi Yao,Chan-Feng Hsu,Hongxia Xie,Hong-Han Shuai,Wen-Huang Cheng |
発行日 | 2025-01-15 15:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google