Trained Random Forests Completely Reveal your Dataset

要約

ランダム フォレストのトレーニングに使用されるデータセットを完全またはほぼ完全に再構築できる最適化ベースの再構築攻撃を導入します。
特に、私たちのアプローチは、scikit-learn などの一般的に使用されるライブラリで容易に入手できる情報のみに依存しています。
これを達成するために、最尤目標に基づいて再構成問題を組み合わせ問題として定式化します。
我々は、この問題が NP 困難であることを示しますが、制約プログラミング (制約の伝播と解領域の縮小に根ざしたアプローチ) を使用すれば大規模に解決可能です。
広範な計算による調査を通じて、ブートストラップ集約を行わずに特徴のランダム化を使用してトレーニングされたランダム フォレストが完全な再構成の影響を受けやすいことを実証しました。
これは木の数が少ない場合でも当てはまります。
ブートストラップ集約を使用しても、データの大部分を再構築することもできます。
これらの発見は、広く採用されているアンサンブル手法に内在する重大な脆弱性を強調しており、注意と緩和が必要です。
このような再構築攻撃の可能性はプライバシー研究で議論されてきましたが、私たちの研究は、その実行可能性についての明確な経験的証拠を提供します。

要約(オリジナル)

We introduce an optimization-based reconstruction attack capable of completely or near-completely reconstructing a dataset utilized for training a random forest. Notably, our approach relies solely on information readily available in commonly used libraries such as scikit-learn. To achieve this, we formulate the reconstruction problem as a combinatorial problem under a maximum likelihood objective. We demonstrate that this problem is NP-hard, though solvable at scale using constraint programming — an approach rooted in constraint propagation and solution-domain reduction. Through an extensive computational investigation, we demonstrate that random forests trained without bootstrap aggregation but with feature randomization are susceptible to a complete reconstruction. This holds true even with a small number of trees. Even with bootstrap aggregation, the majority of the data can also be reconstructed. These findings underscore a critical vulnerability inherent in widely adopted ensemble methods, warranting attention and mitigation. Although the potential for such reconstruction attacks has been discussed in privacy research, our study provides clear empirical evidence of their practicability.

arxiv情報

著者 Julien Ferry,Ricardo Fukasawa,Timothée Pascal,Thibaut Vidal
発行日 2024-02-29 15:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク