Privacy Checklist: Privacy Violation Detection Grounding on Contextual Integrity Theory

要約

スマート デバイス、ソーシャル プラットフォーム、AI アプリケーションとのやり取り中に個人データが簡単に漏洩する可能性があると個人が懸念しているため、プライバシーの研究は幅広い注目を集めています。
一方、コンピューター サイエンスの研究者は、セグメント化された分野でのプライバシーの攻撃と防御を通じてプライバシーの問題を研究するのが一般的です。
プライバシー調査は、コンピューター ビジョン (CV)、自然言語処理 (NLP)、コンピューター ネットワークなど、さまざまな下位分野で実施されています。
各分野において、プライバシーには独自の定式化があります。
攻撃と防御に関する先駆的な研究はプライバシーに関するデリケートな問題を明らかにしていますが、それらは狭い範囲に閉じ込められており、人々の実際のプライバシーの懸念を完全にカバーすることはできません。
その結果、一般的かつ人間中心のプライバシー研究に関する研究は、依然として未開拓のままです。
この論文では、プライバシー問題を単純なパターン マッチングではなく推論問題として定式化します。
私たちは、人々のプライバシーに対する認識が、対応する社会的文脈と高度に相関していると仮定する、文脈整合性 (CI) 理論に基づいています。
このような仮定に基づいて、私たちは社会的アイデンティティ、私的属性、および既存のプライバシー規制をカバーする最初の包括的なチェックリストを開発しました。
限られた専門家の注釈付き規範をカバーするか、不完全な社会的文脈をモデル化する CI に関するこれまでの研究とは異なり、私たちが提案するプライバシー チェックリストでは、1996 年の医療保険の相互運用性と責任に関する法律 (HIPAA) 全体を例として使用し、大規模な言語モデルに頼ることができることを示しています。
(LLM) は HIPAA の規制を完全にカバーします。
さらに、当社のチェックリストでは、複数のオントロジーにわたる専門家の注釈も収集して、個人を特定できる情報 (PII) を含むがこれに限定されない個人情報を特定します。
私たちは、HIPAA に関する予備的な結果を利用して、より多くのプライバシー規制、社会規範、基準をカバーする将来のコンテキスト中心のプライバシー調査に光を当てます。

要約(オリジナル)

Privacy research has attracted wide attention as individuals worry that their private data can be easily leaked during interactions with smart devices, social platforms, and AI applications. Computer science researchers, on the other hand, commonly study privacy issues through privacy attacks and defenses on segmented fields. Privacy research is conducted on various sub-fields, including Computer Vision (CV), Natural Language Processing (NLP), and Computer Networks. Within each field, privacy has its own formulation. Though pioneering works on attacks and defenses reveal sensitive privacy issues, they are narrowly trapped and cannot fully cover people’s actual privacy concerns. Consequently, the research on general and human-centric privacy research remains rather unexplored. In this paper, we formulate the privacy issue as a reasoning problem rather than simple pattern matching. We ground on the Contextual Integrity (CI) theory which posits that people’s perceptions of privacy are highly correlated with the corresponding social context. Based on such an assumption, we develop the first comprehensive checklist that covers social identities, private attributes, and existing privacy regulations. Unlike prior works on CI that either cover limited expert annotated norms or model incomplete social context, our proposed privacy checklist uses the whole Health Insurance Portability and Accountability Act of 1996 (HIPAA) as an example, to show that we can resort to large language models (LLMs) to completely cover the HIPAA’s regulations. Additionally, our checklist also gathers expert annotations across multiple ontologies to determine private information including but not limited to personally identifiable information (PII). We use our preliminary results on the HIPAA to shed light on future context-centric privacy research to cover more privacy regulations, social norms and standards.

arxiv情報

著者 Haoran Li,Wei Fan,Yulin Chen,Jiayang Cheng,Tianshu Chu,Xuebing Zhou,Peizhao Hu,Yangqiu Song
発行日 2024-08-19 14:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク