Prototype-guided Cross-task Knowledge Distillation for Large-scale Models

要約

最近、大規模な事前トレーニング済みモデルが多くのタスクでその利点を示しています。
ただし、計算の複雑さとストレージ要件が非常に大きいため、大規模なモデルを実際のシーンに適用することは困難です。
一般的な解決策は、大規模モデルを教師モデルと見なし、小規模な学生モデルをトレーニングして競争力のあるパフォーマンスを得るのに役立つ知識蒸留です。
タスク間の知識の蒸留により、大規模な事前トレーニング済みモデルのアプリケーション シナリオが拡張されます。
既存の知識抽出作業は、グローバル レベルの特性を表し、タスク固有の教師モデルの最終予測または中間層を直接模倣することに焦点を当てています。
さまざまなラベル スペースの制約を軽減するには、不変の固有のローカル オブジェクト特性 (牛や馬の脚と尾の形状特性など) をキャプチャすることが重要な役割を果たします。
実際のシーンタスクの複雑さと変動性を考慮して、大規模な教師ネットワークの固有のローカルレベルのオブジェクト知識をさまざまなタスクシナリオに転送するためのプロトタイプガイド付きクロスタスク知識蒸留 (ProC-KD) アプローチを提案します。
まず、クロスタスクのシナリオで教師モデルの一般化された知識をより適切に伝達するために、教師モデルのオブジェクトの本質的な特徴表現から学習するためのプロトタイプ学習モジュールを提案します。
第二に、多様なダウンストリーム タスクに対して、学習した一般化プロトタイプ機能を使用して学生モデルの機能を強化し、学生モデルのトレーニングをガイドして一般化能力を向上させる、タスク適応型機能拡張モジュールを提案します。
さまざまな視覚タスクに関する実験結果は、大規模モデルのクロスタスク知識蒸留シーンに対する私たちのアプローチの有効性を示しています。

要約(オリジナル)

Recently, large-scale pre-trained models have shown their advantages in many tasks. However, due to the huge computational complexity and storage requirements, it is challenging to apply the large-scale model to real scenes. A common solution is knowledge distillation which regards the large-scale model as a teacher model and helps to train a small student model to obtain a competitive performance. Cross-task Knowledge distillation expands the application scenarios of the large-scale pre-trained model. Existing knowledge distillation works focus on directly mimicking the final prediction or the intermediate layers of the teacher model, which represent the global-level characteristics and are task-specific. To alleviate the constraint of different label spaces, capturing invariant intrinsic local object characteristics (such as the shape characteristics of the leg and tail of the cattle and horse) plays a key role. Considering the complexity and variability of real scene tasks, we propose a Prototype-guided Cross-task Knowledge Distillation (ProC-KD) approach to transfer the intrinsic local-level object knowledge of a large-scale teacher network to various task scenarios. First, to better transfer the generalized knowledge in the teacher model in cross-task scenarios, we propose a prototype learning module to learn from the essential feature representation of objects in the teacher model. Secondly, for diverse downstream tasks, we propose a task-adaptive feature augmentation module to enhance the features of the student model with the learned generalization prototype features and guide the training of the student model to improve its generalization ability. The experimental results on various visual tasks demonstrate the effectiveness of our approach for large-scale model cross-task knowledge distillation scenes.

arxiv情報

著者 Deng Li,Aming Wu,Yahong Han,Qi Tian
発行日 2022-12-26 15:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク