要約
コンテンツ生成で Text-to-Image (T2I) モデルを広く使用するには、敵対的な攻撃に対する堅牢性を含め、その安全性を慎重に検討する必要があります。
敵対的攻撃に関する広範な研究にもかかわらず、その有効性の理由はまだ解明されていません。
この論文では、攻撃成功率 (ASR) に関連する要因の分析に焦点を当て、T2I モデルに対する敵対的攻撃に関する実証研究を紹介します。
新しい攻撃目標として、敵対的なサフィックスと 2 つの勾配ベースの攻撃アルゴリズムを使用したエンティティ スワッピングを導入します。
人間による評価と自動評価により、エンティティ交換における ASR の非対称な性質が明らかになります。たとえば、「雨の中で踊る人間」というプロンプトでは、「人間」を「ロボット」に置き換える方が簡単です。
敵対的なサフィックスが付いていますが、逆の置換は非常に困難です。
さらに、モデルの信念から敵対的な ASR への指標となるシグナルを確立するための調査メトリクスを提案します。
敵対的攻撃の成功確率が 60% になる条件と、この確率が 5% を下回るその他の条件を特定します。
要約(オリジナル)
The widespread use of Text-to-Image (T2I) models in content generation requires careful examination of their safety, including their robustness to adversarial attacks. Despite extensive research on adversarial attacks, the reasons for their effectiveness remain underexplored. This paper presents an empirical study on adversarial attacks against T2I models, focusing on analyzing factors associated with attack success rates (ASR). We introduce a new attack objective – entity swapping using adversarial suffixes and two gradient-based attack algorithms. Human and automatic evaluations reveal the asymmetric nature of ASRs on entity swap: for example, it is easier to replace ‘human’ with ‘robot’ in the prompt ‘a human dancing in the rain.’ with an adversarial suffix, but the reverse replacement is significantly harder. We further propose probing metrics to establish indicative signals from the model’s beliefs to the adversarial ASR. We identify conditions that result in a success probability of 60% for adversarial attacks and others where this likelihood drops below 5%.
arxiv情報
著者 | Haz Sameen Shahgir,Xianghao Kong,Greg Ver Steeg,Yue Dong |
発行日 | 2024-02-14 18:09:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google