To share or not to share: What risks would laypeople accept to give sensitive data to differentially-private NLP systems?

要約

NLP コミュニティは、プライバシー保護モデルのトレーニングやデータ共有のための頼りになるフレームワークとして中央差分プライバシーを採用していますが、プライバシー保護の強度を決定する重要なパラメーターであるプライバシー バジェット $\varepsilon$ の選択と解釈は、依然として大きな部分が残っています。
任意。
私たちは、$\varepsilon$ の値の決定は研究者やシステム開発者だけに委ねられるべきではなく、潜在的に機密データを共有する実際の人々も考慮に入れる必要があると主張します。
言い換えると、$\varepsilon$/10 でインスタント メッセージを共有してくれませんか?
私たちは、プライバシーを脅かす状況に関して不確実な意思決定状況にある人々の行動を研究するための行動実験(311人の一般参加者)を設計、実装、実施することで、この研究ギャップに対処します。
2 つの現実的な NLP シナリオの観点からリスク認識を構成し、ビネット行動研究を使用することは、どのような $\varepsilon$ しきい値が一般人に機密テキスト データの共有につながるかを判断するのに役立ちます。これは、私たちの知る限り、この種の研究としては初めてです。

要約(オリジナル)

Although the NLP community has adopted central differential privacy as a go-to framework for privacy-preserving model training or data sharing, the choice and interpretation of the key parameter, privacy budget $\varepsilon$ that governs the strength of privacy protection, remains largely arbitrary. We argue that determining the $\varepsilon$ value should not be solely in the hands of researchers or system developers, but must also take into account the actual people who share their potentially sensitive data. In other words: Would you share your instant messages for $\varepsilon$ of 10? We address this research gap by designing, implementing, and conducting a behavioral experiment (311 lay participants) to study the behavior of people in uncertain decision-making situations with respect to privacy-threatening situations. Framing the risk perception in terms of two realistic NLP scenarios and using a vignette behavioral study help us determine what $\varepsilon$ thresholds would lead lay people to be willing to share sensitive textual data – to our knowledge, the first study of its kind.

arxiv情報

著者 Christopher Weiss,Frauke Kreuter,Ivan Habernal
発行日 2023-07-13 12:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク