Anonymity at Risk? Assessing Re-Identification Capabilities of Large Language Models


LLM の出現により、匿名化された個人の大規模な再識別に対する懸念が高まっています。
最初の実験に続いて、結果をさらに調査するためのより厳密なテスト場として、匿名化された Wikipedia データセットを構築しました。
ウィキペディアでの高い再識別率にもかかわらず、最高の LLM でさえ裁判所の判決に苦戦していました。
この複雑さは、テスト データセットの不足、十分なトレーニング リソースの必要性、および再識別に使用される情報のデータの希薄性に起因すると考えられます。
結論として、この研究は、LLM を使用した再識別は現時点では実現不可能かもしれないが、Wikipedia の概念実証が示したように、将来的には可能になる可能性があることを示しています。


Anonymity of both natural and legal persons in court rulings is a critical aspect of privacy protection in the European Union and Switzerland. With the advent of LLMs, concerns about large-scale re-identification of anonymized persons are growing. In accordance with the Federal Supreme Court of Switzerland, we explore the potential of LLMs to re-identify individuals in court rulings by constructing a proof-of-concept using actual legal data from the Swiss federal supreme court. Following the initial experiment, we constructed an anonymized Wikipedia dataset as a more rigorous testing ground to further investigate the findings. With the introduction and application of the new task of re-identifying people in texts, we also introduce new metrics to measure performance. We systematically analyze the factors that influence successful re-identifications, identifying model size, input length, and instruction tuning among the most critical determinants. Despite high re-identification rates on Wikipedia, even the best LLMs struggled with court decisions. The complexity is attributed to the lack of test datasets, the necessity for substantial training resources, and data sparsity in the information used for re-identification. In conclusion, this study demonstrates that re-identification using LLMs may not be feasible for now, but as the proof-of-concept on Wikipedia showed, it might become possible in the future. We hope that our system can help enhance the confidence in the security of anonymized decisions, thus leading to the courts being more confident to publish decisions.


著者 Alex Nyffenegger,Matthias Stürmer,Joel Niklaus
発行日 2023-08-22 00:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, I.2 パーマリンク