Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image Retrieval

要約

以前の知識 蒸留ベースの効率的な画像検索方法では、高速推論のためのスチューデント モデルとして軽量ネットワークが採用されています。
ただし、軽量の学生モデルには、最も重要な初期トレーニング期間中に効果的に知識を模倣するための適切な表現能力が不足しており、最終的なパフォーマンスの低下を引き起こします。
この問題に取り組むために、編集可能な表現能力を持つスチューデント モデルを構築する、容量動的蒸留フレームワークを提案します。
具体的には、使用される学生モデルは、初期のトレーニング エポックで抽出された知識を効果的に学習するために最初は重いモデルであり、学生モデルはトレーニング中に徐々に圧縮されます。
モデルの容量を動的に調整するために、動的フレームワークは、スチューデント モデルの各残差ブロック内に学習可能な畳み込み層をチャネル重要度インジケーターとして挿入します。
指標は画像検索損失と圧縮損失によって同時に最適化され,検索ガイドによる勾配リセット機構が勾配競合を解放するために提案される。
広範な実験により、私たちの方法が優れた推論速度と精度を備えていることが示されています。たとえば、VeRi-776 データセットでは、教師として ResNet101 を指定すると、私たちの方法は 67.13% のモデル パラメーターと 65.67% の FLOP を節約します (状態よりも約 24.13% と 21.94% 高い)。
精度を犠牲にすることなく(最先端のものより約 2.11% mAP 高い)。

要約(オリジナル)

Previous Knowledge Distillation based efficient image retrieval methods employs a lightweight network as the student model for fast inference. However, the lightweight student model lacks adequate representation capacity for effective knowledge imitation during the most critical early training period, causing final performance degeneration. To tackle this issue, we propose a Capacity Dynamic Distillation framework, which constructs a student model with editable representation capacity. Specifically, the employed student model is initially a heavy model to fruitfully learn distilled knowledge in the early training epochs, and the student model is gradually compressed during the training. To dynamically adjust the model capacity, our dynamic framework inserts a learnable convolutional layer within each residual block in the student model as the channel importance indicator. The indicator is optimized simultaneously by the image retrieval loss and the compression loss, and a retrieval-guided gradient resetting mechanism is proposed to release the gradient conflict. Extensive experiments show that our method has superior inference speed and accuracy, e.g., on the VeRi-776 dataset, given the ResNet101 as a teacher, our method saves 67.13% model parameters and 65.67% FLOPs (around 24.13% and 21.94% higher than state-of-the-arts) without sacrificing accuracy (around 2.11% mAP higher than state-of-the-arts).

arxiv情報

著者 Yi Xie,Huaidong Zhang,Xuemiao Xu,Jianqing Zhu,Shengfeng He
発行日 2023-05-31 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク