ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation

要約

Text-to-Image (T2I) 拡散モデル (DM) は、単純なテキストの説明に基づいて高品質の画像を生成する優れた能力を示しています。
ただし、多くの深層学習 (DL) モデルに共通していることですが、DM は堅牢性に欠ける可能性があります。
T2I DM の堅牢性を二値問題または最悪の場合の問題として評価する試みはありますが、敵対的例 (AE) が見つかるたびに、モデルが一般にどの程度堅牢であるかを答えることはできません。
この研究では、まず T2I DM の堅牢性に関する確率的な概念を導入します。
そして、それを統計的に保証して評価するための効率的なフレームワークである ProTIP を確立します。
主な課題は次のとおりです。i) 生成プロセスの計算コストが高い。
ii) 摂動された入力が AE であるかどうかを判断するには、2 つの出力分布を比較する必要があります。これは、ラベルの予測ミスによって AE が特定される分類などの他の DL タスクと比較して、基本的に困難です。
この課題に取り組むために、AE を特定するための統計的テストにおける有効性と無益な早期停止ルールを備えた逐次分析と、検証目標が満たされるたびに確率的摂動の「ちょうどいい」数を動的に決定する適応濃度不等式を採用しています。
実証実験により、一般的な T2I DM に対する ProTIP の有効性と効率性が検証されています。
最後に、一般的に使用される防御方法をランク付けするための ProTIP のアプリケーションを示します。

要約(オリジナル)

Text-to-Image (T2I) Diffusion Models (DMs) have shown impressive abilities in generating high-quality images based on simple text descriptions. However, as is common with many Deep Learning (DL) models, DMs are subject to a lack of robustness. While there are attempts to evaluate the robustness of T2I DMs as a binary or worst-case problem, they cannot answer how robust in general the model is whenever an adversarial example (AE) can be found. In this study, we first introduce a probabilistic notion of T2I DMs’ robustness; and then establish an efficient framework, ProTIP, to evaluate it with statistical guarantees. The main challenges stem from: i) the high computational cost of the generation process; and ii) determining if a perturbed input is an AE involves comparing two output distributions, which is fundamentally harder compared to other DL tasks like classification where an AE is identified upon misprediction of labels. To tackle the challenges, we employ sequential analysis with efficacy and futility early stopping rules in the statistical testing for identifying AEs, and adaptive concentration inequalities to dynamically determine the ‘just-right’ number of stochastic perturbations whenever the verification target is met. Empirical experiments validate the effectiveness and efficiency of ProTIP over common T2I DMs. Finally, we demonstrate an application of ProTIP to rank commonly used defence methods.

arxiv情報

著者 Yi Zhang,Yun Tang,Wenjie Ruan,Xiaowei Huang,Siddartha Khastgir,Paul Jennings,Xingyu Zhao
発行日 2024-02-23 16:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク