On the Effectiveness of Distillation in Mitigating Backdoors in Pre-trained Encoder

要約

この論文では、蒸留と呼ばれる SSL におけるポイズニングされたエンコーダに対する防御について研究します。これは、もともと教師あり学習で使用されていた防御です。
蒸留は、特定のモデル (別名教師ネット) から知識を蒸留し、それを別のモデル (別名学生ネット) に転送することを目的としています。
現在、これを使用して、汚染された事前トレーニング済みエンコーダーから無害な知識を抽出し、それを新しいエンコーダーに転送し、クリーンな事前トレーニング済みエンコーダーを作成します。
特に、汚染されたエンコーダに対する蒸留の有効性とパフォーマンスに関する実証研究を行っています。
事前トレーニングされた画像エンコーダーと一般的に使用される 4 つの画像分類データセットに対する 2 つの最先端のバックドア攻撃を使用した実験結果は、蒸留によって攻撃の成功率が 80.87% から 27.51% に低下する一方で、精度が 6.35% 低下する可能性があることを示しています。

さらに、蒸留の 3 つの主要なコンポーネント (教師ネット、学生ネット、蒸留損失) がパフォーマンスに及ぼす影響を調査します。
4 つの異なる教師ネット、3 つの学生ネット、および 6 つの蒸留損失を比較すると、微調整された教師ネット、ウォームアップ トレーニング ベースの学生ネット、および注意ベースの蒸留損失がそれぞれ最高のパフォーマンスを発揮することがわかります。

要約(オリジナル)

In this paper, we study a defense against poisoned encoders in SSL called distillation, which is a defense used in supervised learning originally. Distillation aims to distill knowledge from a given model (a.k.a the teacher net) and transfer it to another (a.k.a the student net). Now, we use it to distill benign knowledge from poisoned pre-trained encoders and transfer it to a new encoder, resulting in a clean pre-trained encoder. In particular, we conduct an empirical study on the effectiveness and performance of distillation against poisoned encoders. Using two state-of-the-art backdoor attacks against pre-trained image encoders and four commonly used image classification datasets, our experimental results show that distillation can reduce attack success rate from 80.87% to 27.51% while suffering a 6.35% loss in accuracy. Moreover, we investigate the impact of three core components of distillation on performance: teacher net, student net, and distillation loss. By comparing 4 different teacher nets, 3 student nets, and 6 distillation losses, we find that fine-tuned teacher nets, warm-up-training-based student nets, and attention-based distillation loss perform best, respectively.

arxiv情報

著者 Tingxu Han,Shenghan Huang,Ziqi Ding,Weisong Sun,Yebo Feng,Chunrong Fang,Jun Li,Hanwei Qian,Cong Wu,Quanjun Zhang,Yang Liu,Zhenyu Chen
発行日 2024-03-06 16:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク