I Prefer not to Say: Protecting User Consent in Models with Optional Personal Data

要約

現代の保険価格決定モデルに見られるように、個人が意思決定システムと任意の個人情報を共有する選択肢を持つ設定において、機械学習モデルを検証する。ある利用者は自分のデータが利用されることに同意するが、他の利用者はそれに反対し、自分のデータを公開しない。本研究では、データを共有しないという決定自体が、ユーザーのプライバシーを尊重するために保護されるべき情報とみなすことができることを示す。この観察は、個人データを保護するユーザーが結果として不利益を被らないようにするにはどうすればよいかという見過ごされてきた問題を提起する。この問題に対処するため、我々は、ユーザーの積極的な同意が得られた情報のみを使用するモデルに対する保護要件を公式化する。これにより、データを共有するかどうかの決定に含まれる暗黙の情報は除外される。我々は、保護されたユーザー同意(Protected User Consent:PUC)という概念を提案することにより、この問題に対する最初の解決策を提供する。我々は、プライバシーとパフォーマンスは基本的に相反するものではなく、意思決定者がユーザーの同意を尊重しながら追加データから利益を得ることは可能であることを観察する。PUCに準拠したモデルを学習するために、有限サンプルの収束を保証したモデルに依存しないデータ増大戦略を考案する。最後に、困難な実データセット、タスク、モデルにおけるPUCの意味を分析する。

要約(オリジナル)

We examine machine learning models in a setup where individuals have the choice to share optional personal information with a decision-making system, as seen in modern insurance pricing models. Some users consent to their data being used whereas others object and keep their data undisclosed. In this work, we show that the decision not to share data can be considered as information in itself that should be protected to respect users’ privacy. This observation raises the overlooked problem of how to ensure that users who protect their personal data do not suffer any disadvantages as a result. To address this problem, we formalize protection requirements for models which only use the information for which active user consent was obtained. This excludes implicit information contained in the decision to share data or not. We offer the first solution to this problem by proposing the notion of Protected User Consent (PUC), which we prove to be loss-optimal under our protection requirement. We observe that privacy and performance are not fundamentally at odds with each other and that it is possible for a decision maker to benefit from additional data while respecting users’ consent. To learn PUC-compliant models, we devise a model-agnostic data augmentation strategy with finite sample convergence guarantees. Finally, we analyze the implications of PUC on challenging real datasets, tasks, and models.

arxiv情報

著者 Tobias Leemann,Martin Pawelczyk,Christian Thomas Eberle,Gjergji Kasneci
発行日 2024-02-02 13:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.LG, stat.ML パーマリンク