UNICORN: A Unified Backdoor Trigger Inversion Framework

要約

【タイトル】UNICORN: 統一されたバックドアトリガー反転フレームワーク

【要約】
– バックドア攻撃は、トリガー(例:パッチ)が押された入力を使用して、事前に植え込まれた悪意のある動作を活性化する方法であり、深層ニューラルネットワーク(DNN)モデルに対する深刻な脅威である。
– トリガー反転は、バックドアモデルの特定と埋め込まれた攻撃的な動作の理解に効果的な方法である。トリガー反転の課題は、トリガーの構築方法が多岐にわたることである。既存の方法は、ある仮定や攻撃特有の制約を前提としており、様々なタイプのトリガーに汎用的ではない。
– 本論文では、異なる空間に挿入されたトリガーと反転問題を形式化して分析し、トリガーの設計空間を考慮しない既存の研究が抱える欠点を解決する。
– さらに、トリガーの形式化と、分析によって特定されたバックドアモデルの内部動作に基づいて、反転バックドアトリガーを統一的に逆にするためのフレームワークを提案する。
– 本研究のプロトタイプであるUNICORNは、DNNのバックドアトリガーを反転するために一般的かつ効果的である。コードはhttps://github.com/RU-System-Software-and-Security/UNICORNで入手できる。

要約(オリジナル)

The backdoor attack, where the adversary uses inputs stamped with triggers (e.g., a patch) to activate pre-planted malicious behaviors, is a severe threat to Deep Neural Network (DNN) models. Trigger inversion is an effective way of identifying backdoor models and understanding embedded adversarial behaviors. A challenge of trigger inversion is that there are many ways of constructing the trigger. Existing methods cannot generalize to various types of triggers by making certain assumptions or attack-specific constraints. The fundamental reason is that existing work does not consider the trigger’s design space in their formulation of the inversion problem. This work formally defines and analyzes the triggers injected in different spaces and the inversion problem. Then, it proposes a unified framework to invert backdoor triggers based on the formalization of triggers and the identified inner behaviors of backdoor models from our analysis. Our prototype UNICORN is general and effective in inverting backdoor triggers in DNNs. The code can be found at https://github.com/RU-System-Software-and-Security/UNICORN.

arxiv情報

著者 Zhenting Wang,Kai Mei,Juan Zhai,Shiqing Ma
発行日 2023-04-05 23:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク