Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning

要約

データの欠落は実際によく発生しますが、欠落が無視できない場合、効果的な修復は欠落メカニズムの知識に依存します。
根底にある欠損メカニズムをデータから学習することは一般に不可能であるため、攻撃者は無視できない欠損メカニズムを悪意を持って操作することでこの事実を悪用する可能性があります。
このような Adversarial Missingness (AM) 攻撃は、つい最近になって動機づけられ導入されたもので、因果構造学習アルゴリズムを誤解させて特定の因果関係を隠蔽するように調整することに成功しました。
ただし、既存の AM 攻撃は、モデル作成者 (被害者) が欠落データを処理するために完全情報最尤法を使用することを前提としており、モデル作成者が異なる修復戦略を使用する場合には適用範囲が限られます。
この研究では、AM 攻撃のコンテキストにおける連想学習に焦点を当てます。
モデラーが使用する代替戦略として、(i) 完全なケース分析、(ii) 平均値の代入、および (iii) 回帰ベースの代入を考慮します。
欠落したエントリを組み合わせて検索する代わりに、欠落したエントリを処理するために使用されるこれらの方法の漸近形式を導出することで、新しい確率的近似を提案します。
次に、敵対的欠損メカニズムの学習を 2 レベルの最適化問題として定式化します。
一般化線形モデルの実験では、比較的適度な量 (<20%) の欠損を使用しながら、カリフォルニアの住宅データセットなどの実際のデータセットで特徴の p 値を重要なものから重要でないものに変更するために AM 攻撃を使用できることが示されています。 さらに、データ評価に基づいて、防御戦略に対する攻撃の堅牢性を評価します。

要約(オリジナル)

Missing data is commonly encountered in practice, and when the missingness is non-ignorable, effective remediation depends on knowledge of the missingness mechanism. Learning the underlying missingness mechanism from the data is not possible in general, so adversaries can exploit this fact by maliciously engineering non-ignorable missingness mechanisms. Such Adversarial Missingness (AM) attacks have only recently been motivated and introduced, and then successfully tailored to mislead causal structure learning algorithms into hiding specific cause-and-effect relationships. However, existing AM attacks assume the modeler (victim) uses full-information maximum likelihood methods to handle the missing data, and are of limited applicability when the modeler uses different remediation strategies. In this work we focus on associational learning in the context of AM attacks. We consider (i) complete case analysis, (ii) mean imputation, and (iii) regression-based imputation as alternative strategies used by the modeler. Instead of combinatorially searching for missing entries, we propose a novel probabilistic approximation by deriving the asymptotic forms of these methods used for handling the missing entries. We then formulate the learning of the adversarial missingness mechanism as a bi-level optimization problem. Experiments on generalized linear models show that AM attacks can be used to change the p-values of features from significant to insignificant in real datasets, such as the California-housing dataset, while using relatively moderate amounts of missingness (<20%). Additionally, we assess the robustness of our attacks against defense strategies based on data valuation.

arxiv情報

著者 Deniz Koyuncu,Alex Gittens,Bülent Yener,Moti Yung
発行日 2024-09-06 17:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク