Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting

要約

NLPのほとんどのタスクはラベル付きデータを必要とします。データのラベリングは、スケーラビリティの観点から、クラウドソーシングのプラットフォームで行われることが多い。しかし、パブリックなプラットフォームでデータを公開するのは、プライバシーに関わる情報が含まれていない場合のみです。テキストデータには、人名や場所などの機密情報が含まれていることが多い。本研究では、個人を特定できる情報(PII)を除去するとともに、差分プライバシー(DP)書き換えを適用することで、プライバシーに関連する情報を含むテキストをクラウドソーシングに利用できるかを調査します。クラウドソーシングの前にDP書き換えを行うことで、特定のタスクやデータに対して良好なラベル品質を保ちつつ、プライバシーを保護できることを発見した。PII除去は全てのタスクで良好なラベル品質をもたらしたが、プライバシー保証はされていない。

要約(オリジナル)

Most tasks in NLP require labeled data. Data labeling is often done on crowdsourcing platforms due to scalability reasons. However, publishing data on public platforms can only be done if no privacy-relevant information is included. Textual data often contains sensitive information like person names or locations. In this work, we investigate how removing personally identifiable information (PII) as well as applying differential privacy (DP) rewriting can enable text with privacy-relevant information to be used for crowdsourcing. We find that DP-rewriting before crowdsourcing can preserve privacy while still leading to good label quality for certain tasks and data. PII-removal led to good label quality in all examined tasks, however, there are no privacy guarantees given.

arxiv情報

著者 Nina Mouhammad,Johannes Daxenberger,Benjamin Schiller,Ivan Habernal
発行日 2023-03-06 11:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク