MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective

要約

大規模なデータセットの豊かさが増すことは、機械学習テクノロジーの急速な進歩と幅広い採用を促進する上で非常に重要です。
しかし、データの大規模な収集と使用により、不注意による誤った取り扱いや悪意のある悪用により、人々の個人情報や機密情報に対するリスクが増大しています。
法的解決策に加えて、データプライバシー保護に向けて多くの技術的アプローチが提案されています。
ただし、データの可用性や有用性の低下を招いたり、ヒューリスティックに依存して確固たる理論的基盤が欠如したりするなど、さまざまな制限があります。
これらの制限を克服するために、私たちは、このユーティリティを維持するプライバシー保護の問題に対する正式な情報理論的定義を提案し、他の有用な属性を維持しながら、ターゲット データセットから機密属性を選択的に抑制できるデータ駆動型の学習可能なデータ変換フレームワークを設計します。
事前に知られているかどうか、または保存のために明示的に注釈が付けられているかどうかは関係ありません。
私たちは、フレームワークの動作限界に関する厳密な理論分析を提供し、顔画像、音声クリップ、人間の活動モーションセンサー信号など、さまざまなモダリティのデータセットを使用して包括的な実験評価を実行します。
結果は、多数のタスクのさまざまな構成下でのこの方法の有効性と一般化可能性を示しています。
私たちのコードは https://github.com/jpmorganchase/MaSS で入手できます。

要約(オリジナル)

The growing richness of large-scale datasets has been crucial in driving the rapid advancement and wide adoption of machine learning technologies. The massive collection and usage of data, however, pose an increasing risk for people’s private and sensitive information due to either inadvertent mishandling or malicious exploitation. Besides legislative solutions, many technical approaches have been proposed towards data privacy protection. However, they bear various limitations such as leading to degraded data availability and utility, or relying on heuristics and lacking solid theoretical bases. To overcome these limitations, we propose a formal information-theoretic definition for this utility-preserving privacy protection problem, and design a data-driven learnable data transformation framework that is capable of selectively suppressing sensitive attributes from target datasets while preserving the other useful attributes, regardless of whether or not they are known in advance or explicitly annotated for preservation. We provide rigorous theoretical analyses on the operational bounds for our framework, and carry out comprehensive experimental evaluations using datasets of a variety of modalities, including facial images, voice audio clips, and human activity motion sensor signals. Results demonstrate the effectiveness and generalizability of our method under various configurations on a multitude of tasks. Our code is available at https://github.com/jpmorganchase/MaSS.

arxiv情報

著者 Yizhuo Chen,Chun-Fu Chen,Hsiang Hsu,Shaohan Hu,Marco Pistoia,Tarek Abdelzaher
発行日 2024-07-19 16:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク