MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution

要約

知識蒸留 (KD) は、ディープラーニングにおける有望な手法として浮上しており、通常、高性能だがより複雑な教師のバリエーションから学習することで、コンパクトな生徒ネットワークを強化するために使用されます。
画像超解像度のコンテキストで適用される場合、ほとんどの KD アプローチは、他のコンピューター ビジョン タスク用に開発された手法の修正版であり、単一の教師と単純な損失関数を使用したトレーニング戦略に基づいています。
この論文では、画像の超解像度に特化した新しい複数教師知識蒸留 (MTKD) フレームワークを提案します。
これらの教師モデルの出力を組み合わせて強化することで複数の教師の利点を活用し、コンパクトな生徒ネットワークの学習プロセスを導きます。
より効果的な学習パフォーマンスを実現するために、MTKD 用の新しいウェーブレットベースの損失関数も開発しました。これにより、空間領域と周波数領域の両方の違いを観察することでトレーニング プロセスをより適切に最適化できます。
提案された方法の有効性を、3 つの一般的なネットワーク アーキテクチャに基づく画像超解像に一般的に使用される 5 つの KD 方法と比較することにより完全に評価します。
結果は、提案された MTKD 方法が、さまざまなネットワーク構造にわたって最先端の KD アプローチと比較して、超解像性能で最大 0.46 dB (PSNR に基づく) の明らかな改善を達成することを示しています。
MTKD のソース コードは、公開評価のためにここで公開されます。

要約(オリジナル)

Knowledge distillation (KD) has emerged as a promising technique in deep learning, typically employed to enhance a compact student network through learning from their high-performance but more complex teacher variant. When applied in the context of image super-resolution, most KD approaches are modified versions of methods developed for other computer vision tasks, which are based on training strategies with a single teacher and simple loss functions. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) framework specifically for image super-resolution. It exploits the advantages of multiple teachers by combining and enhancing the outputs of these teacher models, which then guides the learning process of the compact student network. To achieve more effective learning performance, we have also developed a new wavelet-based loss function for MTKD, which can better optimize the training process by observing differences in both the spatial and frequency domains. We fully evaluate the effectiveness of the proposed method by comparing it to five commonly used KD methods for image super-resolution based on three popular network architectures. The results show that the proposed MTKD method achieves evident improvements in super-resolution performance, up to 0.46dB (based on PSNR), over state-of-the-art KD approaches across different network structures. The source code of MTKD will be made available here for public evaluation.

arxiv情報

著者 Yuxuan Jiang,Chen Feng,Fan Zhang,David Bull
発行日 2024-04-15 08:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク