要約
この論文では、多くのモバイル デバイスにとって不可欠な、小規模モデルの事前トレーニングの問題について研究します。
この問題に対する現在の最先端の手法は、自己教師あり蒸留を使用して、大規模ネットワーク (教師として) の表現知識をより小さなモデル (生徒として) に転送し、下流タスクにおける小規模モデルのパフォーマンスを向上させます。
。
しかし、既存のアプローチでは、蒸留プロセスの下流タスクでカテゴリーを識別するのに役立つ重要な知識を抽出するには不十分です。
この論文では、蒸留プロセスに初めて言語ガイダンスを導入し、言語ガイド蒸留 (LGD) システムと呼ばれる新しい方法を提案します。このシステムは、ターゲットの下流タスクのカテゴリ名を使用して、教師間で伝達される知識を洗練するのに役立ちます。
そして学生。
この目的を達成するために、事前にトレーニングされたテキスト エンコーダーを利用して言語から意味埋め込みを抽出し、Textual Semantics Bank (TSB) と呼ばれるテキスト意味空間を構築します。
さらに、ビジュアル セマンティクス バンク (VSB) とも呼ばれる、ビジュアル セマンティック空間を構築するための言語ガイド付き知識集約 (LGKA) モジュールを設計します。
タスク関連の知識は、TSB および VSB を通じて教師によって推測された類似性スコア分布を模倣するように学生エンコーダーを駆動することによって転送されます。
ImageNet の事前トレーニングまたは自己教師付き蒸留によって得られた他の小型モデルと比較した場合、実験結果は、提案された LGD 手法を使用して蒸留された軽量モデルが最先端のパフォーマンスを示し、分類を含むさまざまな下流タスクで検証されていることを示しています。
、検出、セグメンテーション。
コードは https://github.com/mZhenz/LGD で利用できるようにしました。
要約(オリジナル)
This paper studies the problem of pre-training for small models, which is essential for many mobile devices. Current state-of-the-art methods on this problem transfer the representational knowledge of a large network (as a Teacher) into a smaller model (as a Student) using self-supervised distillation, improving the performance of the small model on downstream tasks. However, existing approaches are insufficient in extracting the crucial knowledge that is useful for discerning categories in downstream tasks during the distillation process. In this paper, for the first time, we introduce language guidance to the distillation process and propose a new method named Language-Guided Distillation (LGD) system, which uses category names of the target downstream task to help refine the knowledge transferred between the teacher and student. To this end, we utilize a pre-trained text encoder to extract semantic embeddings from language and construct a textual semantic space called Textual Semantics Bank (TSB). Furthermore, we design a Language-Guided Knowledge Aggregation (LGKA) module to construct the visual semantic space, also named Visual Semantics Bank (VSB). The task-related knowledge is transferred by driving a student encoder to mimic the similarity score distribution inferred by a teacher over TSB and VSB. Compared with other small models obtained by either ImageNet pre-training or self-supervised distillation, experiment results show that the distilled lightweight model using the proposed LGD method presents state-of-the-art performance and is validated on various downstream tasks, including classification, detection, and segmentation. We have made the code available at https://github.com/mZhenz/LGD.
arxiv情報
著者 | Mingsheng Li,Lin Zhang,Mingzhen Zhu,Zilong Huang,Gang Yu,Jiayuan Fan,Tao Chen |
発行日 | 2024-06-17 16:07:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google