要約
集計統計から表形式データを再構築する問題を研究します。攻撃者は、集合体を考慮して100%確実に検証できる機密データに関する興味深い主張を特定することを目指しています。
以前の作業での成功した試みは、公開された統計のセットが十分に豊富であるため、データセット全体を確実に再構築できる設定で研究を実施しました。
私たちの作業では、代わりに、多くの可能なデータセットが公開されている統計と一致する体制に焦点を当て、プライベートデータセット全体を完全に再構築することを不可能にします(つまり、以前の作業のアプローチが失敗したとき)。
敵の目標は、代わりに$ \ textit {subset} $を、$ \ textit {正しいものに保証されている} $の列の$ \ textit {subset} $を出力することです。
最初の$ \ textbf {generates} $のクレームのセット、次に$ \ textbf {verififies} $を紹介する新しい整数プログラミングアプローチを紹介します。
米国の10年生の国勢調査リリースからの住宅レベルのマイクロダタに関するアプローチを評価し、そのようなデータに関する情報が比較的まばらである場合でも、プライバシー違反が依然として持続できることを実証しています。
要約(オリジナル)
We study the problem of reconstructing tabular data from aggregate statistics, in which the attacker aims to identify interesting claims about the sensitive data that can be verified with 100% certainty given the aggregates. Successful attempts in prior work have conducted studies in settings where the set of published statistics is rich enough that entire datasets can be reconstructed with certainty. In our work, we instead focus on the regime where many possible datasets match the published statistics, making it impossible to reconstruct the entire private dataset perfectly (i.e., when approaches in prior work fail). We propose the problem of partial data reconstruction, in which the goal of the adversary is to instead output a $\textit{subset}$ of rows and/or columns that are $\textit{guaranteed to be correct}$. We introduce a novel integer programming approach that first $\textbf{generates}$ a set of claims and then $\textbf{verifies}$ whether each claim holds for all possible datasets consistent with the published aggregates. We evaluate our approach on the housing-level microdata from the U.S. Decennial Census release, demonstrating that privacy violations can still persist even when information published about such data is relatively sparse.
arxiv情報
著者 | Terrance Liu,Eileen Xiao,Adam Smith,Pratiksha Thaker,Zhiwei Steven Wu |
発行日 | 2025-06-11 16:54:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google