Oblivious Defense in ML Models: Backdoor Removal without Detection

要約

社会が機械学習への依存を強めるにつれ、高度な攻撃に対する機械学習システムのセキュリティを確保することが差し迫った懸念事項となっています。
Goldwasser、Kim、Vaikuntanathan、および Zamir (2022) の最近の結果は、敵対者が機械学習モデルに検出不可能なバックドアを埋め込み、敵対者がモデルの動作を密かに制御できることを示しています。
バックドアは、バックドアのある機械学習モデルがバックドアのない正直なモデルと計算上区別できないような方法で仕掛けることができます。
このペーパーでは、たとえ検出不可能であっても、ML モデルのバックドアから防御するための戦略を紹介します。
重要な観察は、ランダムな自己還元性の概念にヒントを得た技術を使用すると、バックドアを検出することなく、バックドアを軽減したり削除したりすることが証明できる場合があるということです。
これは、提案された ML モデル (攻撃者によって選択される可能性がある) ではなく、グラウンド トゥルース ラベル (自然に選択される) のプロパティに依存します。
安全なバックドア軽減策の正式な定義を与え、次に 2 種類の結果を示します。
まず、グラウンド トゥルース ラベルがフーリエ重み関数に近いという仮定の下で、機械学習モデルからすべてのバックドアを削除する「グローバル緩和」手法を示します。
次に、グラウンドトゥルースのラベルが $\mathbb{R}^n$ の線形関数または多項式関数に近い分布を考慮します。
ここでは、対象となるすべての入力に対してバックドアを高い確率で削除し、グローバルな緩和よりも計算コストが安い「ローカル緩和」技術を示します。
私たちの構築はすべてブラックボックスであるため、私たちの技術はモデルの表現 (つまり、そのコードやパラメーター) にアクセスする必要がなくても機能します。
その過程で、ロバストな平均推定の単純な結果を証明します。

要約(オリジナル)

As society grows more reliant on machine learning, ensuring the security of machine learning systems against sophisticated attacks becomes a pressing concern. A recent result of Goldwasser, Kim, Vaikuntanathan, and Zamir (2022) shows that an adversary can plant undetectable backdoors in machine learning models, allowing the adversary to covertly control the model’s behavior. Backdoors can be planted in such a way that the backdoored machine learning model is computationally indistinguishable from an honest model without backdoors. In this paper, we present strategies for defending against backdoors in ML models, even if they are undetectable. The key observation is that it is sometimes possible to provably mitigate or even remove backdoors without needing to detect them, using techniques inspired by the notion of random self-reducibility. This depends on properties of the ground-truth labels (chosen by nature), and not of the proposed ML model (which may be chosen by an attacker). We give formal definitions for secure backdoor mitigation, and proceed to show two types of results. First, we show a ‘global mitigation’ technique, which removes all backdoors from a machine learning model under the assumption that the ground-truth labels are close to a Fourier-heavy function. Second, we consider distributions where the ground-truth labels are close to a linear or polynomial function in $\mathbb{R}^n$. Here, we show ‘local mitigation’ techniques, which remove backdoors with high probability for every inputs of interest, and are computationally cheaper than global mitigation. All of our constructions are black-box, so our techniques work without needing access to the model’s representation (i.e., its code or parameters). Along the way we prove a simple result for robust mean estimation.

arxiv情報

著者 Shafi Goldwasser,Jonathan Shafer,Neekon Vafa,Vinod Vaikuntanathan
発行日 2024-11-05 17:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CR, cs.LG パーマリンク