Learning to Project for Cross-Task Knowledge Distillation

要約

従来の知識の蒸留 (KD) は、対象となるタスクについて訓練を受けた熟練した教師に依存していますが、教師は常に利用できるわけではありません。
この設定では、クロスタスク蒸留を使用でき、別のタスクでトレーニングされた教師モデルを使用できるようになります。
ただし、多くの KD 手法は、このクロスタスク設定に適用すると効果がないことがわかります。
この制限に対処するために、反転投影の使用という簡単な変更を提案します。
標準プロジェクターのこのドロップイン代替品は、生徒の成績を低下させる可能性のあるタスク固有の機能を無視することを学習することで効果的であることを示します。
この単純な変更は、教師と生徒のタスクが大きく異なる可能性があるクロスタスク設定に多くの KD メソッドを拡張するのに十分であることがわかりました。
これにより、追加コストなしで、従来の予測と比較してクロスタスク設定が最大 1.9% 改善されました。
私たちの方法では、転送する学習知識がまったくないにもかかわらず、深度推定、画像変換、セマンティック セグメンテーションなどのさまざまなタスクでランダムに初期化された教師を使用した場合でも、大幅なパフォーマンス向上 (最大 7%) を得ることができます。
この結果について概念的かつ分析的な洞察を提供するために、逆投影を使用することで蒸留損失を知識伝達とスペクトル正則化コンポーネントに分解できることを示します。
この分析を通じて、教師不要の蒸留を可能にする新しい正則化損失を提案することもでき、追加のトレーニング費用をかけずに ImageNet で最大 8.57% のパフォーマンス向上が可能になります。

要約(オリジナル)

Traditional knowledge distillation (KD) relies on a proficient teacher trained on the target task, which is not always available. In this setting, cross-task distillation can be used, enabling the use of any teacher model trained on a different task. However, many KD methods prove ineffective when applied to this cross-task setting. To address this limitation, we propose a simple modification: the use of an inverted projection. We show that this drop-in replacement for a standard projector is effective by learning to disregard any task-specific features which might degrade the student’s performance. We find that this simple modification is sufficient for extending many KD methods to the cross-task setting, where the teacher and student tasks can be very different. In doing so, we obtain up to a 1.9% improvement in the cross-task setting compared to the traditional projection, at no additional cost. Our method can obtain significant performance improvements (up to 7%) when using even a randomly-initialised teacher on various tasks such as depth estimation, image translation, and semantic segmentation, despite the lack of any learned knowledge to transfer. To provide conceptual and analytical insights into this result, we show that using an inverted projection allows the distillation loss to be decomposed into a knowledge transfer and a spectral regularisation component. Through this analysis we are additionally able to propose a novel regularisation loss that allows teacher-free distillation, enabling performance improvements of up to 8.57% on ImageNet with no additional training costs.

arxiv情報

著者 Dylan Auty,Roy Miles,Benedikt Kolbeinsson,Krystian Mikolajczyk
発行日 2024-03-21 15:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク