要約
タイトル:ChatGPTを攻撃ツールとして使用:ブラックボックス生成モデルトリガーを介したステルステキストバックドア攻撃
要約:
– テキストバックドア攻撃は、入力に不可視なトリガーを挿入し、トレーニングデータセットのラベルを操作することによって、既存のシステムに実用的な脅威を与えます。
– GPT-4などの最新の生成モデルにより、倒置を極限まで押し上げることができるようになったため、これらの攻撃はより検出が困難になっています。
– 本論文は、ブラックボックス生成モデルをバックドア攻撃ツールとして使用する役割を包括的に調査し、相対的な防御戦略の研究の重要性を強調しています。
– 提案された生成モデルベースの攻撃BGMAttackは、従来の攻撃方法に比べて、最先端の生成モデルを活用してバックドアトリガーをより目立たなくすることで、テキスト分類器を効果的に欺くことができます。
– 5つのデータセットにわたる攻撃効果の広範な評価に加えて、3つの異なる人間認知評価を補完するフィギュア4は、基本的な手法に比べて優れたステルス性を維持しながら、類似の攻撃効果を発揮します。
要約(オリジナル)
Textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary levels, such attacks are becoming even harder to detect. We conduct a comprehensive investigation of the role of black-box generative models as a backdoor attack tool, highlighting the importance of researching relative defense strategies. In this paper, we reveal that the proposed generative model-based attack, BGMAttack, could effectively deceive textual classifiers. Compared with the traditional attack methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging state-of-the-art generative models. Our extensive evaluation of attack effectiveness across five datasets, complemented by three distinct human cognition assessments, reveals that Figure 4 achieves comparable attack performance while maintaining superior stealthiness relative to baseline methods.
arxiv情報
著者 | Jiazhao Li,Yijin Yang,Zhuofeng Wu,V. G. Vinod Vydiswaran,Chaowei Xiao |
発行日 | 2023-04-27 19:26:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI