要約
自己教師付き学習によって事前に訓練された画像エンコーダは、様々な下流タスクのための下流分類器を構築するための汎用特徴抽出器として使用することができる。しかし、多くの研究により、攻撃者がエンコーダにトロイの木馬を埋め込むことで、トロイの木馬を埋め込まれたエンコーダに基づいて構築された複数の下流分類器が同時にトロイの木馬の振る舞いを継承することが示されている。本研究では、トロイの木馬が埋め込まれたテスト入力を識別し、回復するための初のデータフリー手法であるTrojanDecを提案する。トロイの木馬またはクリーンな)エンコーダとテスト入力が与えられた場合、TrojanDecはまずテスト入力がトロイの木馬かどうかを予測する。もしそうでなければ、テスト入力はユーティリティを維持するために通常の方法で処理される。そうでない場合、テスト入力はトリガーを取り除くためにさらに復元される。我々の広範な評価は、TrojanDecが与えられたテスト入力からトロイの木馬(もしあれば)を効果的に識別し、最先端のトロイの木馬攻撃下でそれを回復できることを示している。さらに、我々のTrojanDecが最先端の防御を凌駕することを実験により実証する。
要約(オリジナル)
An image encoder pre-trained by self-supervised learning can be used as a general-purpose feature extractor to build downstream classifiers for various downstream tasks. However, many studies showed that an attacker can embed a trojan into an encoder such that multiple downstream classifiers built based on the trojaned encoder simultaneously inherit the trojan behavior. In this work, we propose TrojanDec, the first data-free method to identify and recover a test input embedded with a trigger. Given a (trojaned or clean) encoder and a test input, TrojanDec first predicts whether the test input is trojaned. If not, the test input is processed in a normal way to maintain the utility. Otherwise, the test input will be further restored to remove the trigger. Our extensive evaluation shows that TrojanDec can effectively identify the trojan (if any) from a given test input and recover it under state-of-the-art trojan attacks. We further demonstrate by experiments that our TrojanDec outperforms the state-of-the-art defenses.
arxiv情報
著者 | Yupei Liu,Yanting Wang,Jinyuan Jia |
発行日 | 2025-02-04 15:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |