Adversaral Doodles: Interpretable and Human-drawable Attacks Provide Describable Insights

要約

DNN ベースの画像分類モデルは、敵対的な攻撃を受けやすいです。
これまでの敵対的攻撃のほとんどは、生成された敵対的例の解釈可能性に焦点を当てておらず、攻撃からターゲット分類子のメカニズムについて洞察を得ることができませんでした。
そこで、解釈可能な形状を持つ Adversarial Doodle を提案します。
黒いベジエ曲線を最適化して、入力画像にオーバーレイすることでターゲット分類器を欺きます。
ランダムな視点変換を導入し、落書き領域を規則化することにより、人間が手動で複製した場合でも誤分類を引き起こすコンパクトな攻撃が得られます。
敵対的な落書きは、攻撃と分類器の出力との関係について、記述可能で興味深い洞察を提供します。
私たちは敵対的な落書きを利用し、「頭に 2 つのストロークを追加し、体に三角形を 1 つ追加し、鳥の画像の三角形の内側に 2 本の線を追加する」など、ターゲット分類器に固有のバイアスを発見します。
その後、分類器は画像を蝶として誤分類します。」

要約(オリジナル)

DNN-based image classification models are susceptible to adversarial attacks. Most previous adversarial attacks do not focus on the interpretability of the generated adversarial examples, and we cannot gain insights into the mechanism of the target classifier from the attacks. Therefore, we propose Adversarial Doodles, which have interpretable shapes. We optimize black b\’ezier curves to fool the target classifier by overlaying them onto the input image. By introducing random perspective transformation and regularizing the doodled area, we obtain compact attacks that cause misclassification even when humans replicate them by hand. Adversarial doodles provide describable and intriguing insights into the relationship between our attacks and the classifier’s output. We utilize adversarial doodles and discover the bias inherent in the target classifier, such as ‘We add two strokes on its head, a triangle onto its body, and two lines inside the triangle on a bird image. Then, the classifier misclassifies the image as a butterfly.’

arxiv情報

著者 Ryoya Nara,Yusuke Matsui
発行日 2023-11-27 16:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク