要約
機械学習モデルは、敵対的な例、つまりモデルに間違った予測を出力させる慎重に作成された入力摂動によってだまされる可能性があります。
不確実性の定量化は、敵対的な入力を検出するために最近提案されていますが、そのような攻撃は元のデータよりも高い予測不確実性を示すという仮定の下で、特に不確実性の推定値を削減することを目的とした適応型攻撃は、この防御メカニズムを簡単に回避できることが示されています。
この研究では、攻撃者が予測の正確さに関係なく、依然として不確実性の推定値を操作することに興味を持っている、別の敵対的なシナリオに焦点を当てています。
特に、機械学習モデルの出力が下流のモジュールまたは人間のオペレーターによって消費される場合に、機械学習モデルの使用を損なうことが目標です。
このような方向性に従い、\textit{(i)} は不確実性の定量化をターゲットとした攻撃の脅威モデルを設計します。
\textit{(ii)} 分類問題とセマンティック セグメンテーション問題の両方に及ぶ、概念的に異なる UQ 技術に対して異なる攻撃戦略を考案します。
\textit{(iii)} は、最初の完全かつ広範な分析を実行して、攻撃を受けている最もよく使用されている UQ アプローチのいくつかの違いを比較します。
私たちの広範な実験分析により、私たちの攻撃は、誤分類を誘発することを目的とした攻撃よりも、不確実性の定量化尺度を操作する点でより効果的であることが示されています。
要約(オリジナル)
Machine-learning models can be fooled by adversarial examples, i.e., carefully-crafted input perturbations that force models to output wrong predictions. While uncertainty quantification has been recently proposed to detect adversarial inputs, under the assumption that such attacks exhibit a higher prediction uncertainty than pristine data, it has been shown that adaptive attacks specifically aimed at reducing also the uncertainty estimate can easily bypass this defense mechanism. In this work, we focus on a different adversarial scenario in which the attacker is still interested in manipulating the uncertainty estimate, but regardless of the correctness of the prediction; in particular, the goal is to undermine the use of machine-learning models when their outputs are consumed by a downstream module or by a human operator. Following such direction, we: \textit{(i)} design a threat model for attacks targeting uncertainty quantification; \textit{(ii)} devise different attack strategies on conceptually different UQ techniques spanning for both classification and semantic segmentation problems; \textit{(iii)} conduct a first complete and extensive analysis to compare the differences between some of the most employed UQ approaches under attack. Our extensive experimental analysis shows that our attacks are more effective in manipulating uncertainty quantification measures than attacks aimed to also induce misclassifications.
arxiv情報
著者 | Emanuele Ledda,Daniele Angioni,Giorgio Piras,Giorgio Fumera,Battista Biggio,Fabio Roli |
発行日 | 2023-09-19 12:54:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google