要約
タイトル:制約されたシナリオ下での堅牢なバックドア攻撃の開始
要約:
– ディープニューラルネットワークが重要なドメインで使用され続けるにつれ、セキュリティに関する懸念が高まっている。
– バックドア攻撃によって、ディープラーニングモデルは透明性の欠如によって脆弱になることがある。毒入りのバックドアモデルは、通常の環境では正常に動作するが、入力にトリガーが含まれる場合に悪意のある動作を示すことができる。
– 現在のバックドア攻撃に関する研究は、トリガーのステルス性を改善することに焦点を当てており、ほとんどの手法はモデル構造の知識やトレーニングプロセスの制御など、強力な攻撃者の能力を必要とするため、実用的ではない。
– さらに、モデルの堅牢性については十分な注意が払われていない。たとえば、モデルのパラメータが指数関数的に増加すると、モデル蒸留が一般的に使用され、以前のバックドア攻撃の多くは、モデル蒸留後に失敗した。画像の拡張操作によってトリガーが破壊され、バックドアが無効になることがある。
– 本研究は、能力の制限がある状況でブラックボックスバックドア攻撃を実行する方法について探求している。攻撃者は、トレーニングプロセスへの参加やターゲットモデルの構造の知識なしに、画像アノテーターまたは画像プロバイダーとしてこのような攻撃を実行することができる。
– バックドアトリガーの設計を通じて、この攻撃はモデル蒸留や画像の拡張後でも効果的で、より脅威的で実用的になる。実験結果は、本方法がブラックボックスシナリオで高い攻撃成功率を達成し、最新のバックドア防御を回避することを示している。
要約(オリジナル)
As deep neural networks continue to be used in critical domains, concerns over their security have emerged. Deep learning models are vulnerable to backdoor attacks due to the lack of transparency. A poisoned backdoor model may perform normally in routine environments, but exhibit malicious behavior when the input contains a trigger. Current research on backdoor attacks focuses on improving the stealthiness of triggers, and most approaches require strong attacker capabilities, such as knowledge of the model structure or control over the training process. These attacks are impractical since in most cases the attacker’s capabilities are limited. Additionally, the issue of model robustness has not received adequate attention. For instance, model distillation is commonly used to streamline model size as the number of parameters grows exponentially, and most of previous backdoor attacks failed after model distillation; the image augmentation operations can destroy the trigger and thus disable the backdoor. This study explores the implementation of black-box backdoor attacks within capability constraints. An attacker can carry out such attacks by acting as either an image annotator or an image provider, without involvement in the training process or knowledge of the target model’s structure. Through the design of a backdoor trigger, our attack remains effective after model distillation and image augmentation, making it more threatening and practical. Our experimental results demonstrate that our method achieves a high attack success rate in black-box scenarios and evades state-of-the-art backdoor defenses.
arxiv情報
著者 | Ming Yi,Yixiao Xu,Kangyi Ding,Mingyong Yin,Xiaolei Liu |
発行日 | 2023-04-21 14:35:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI