Anonymity at Risk? Assessing Re-Identification Capabilities of Large Language Models

要約

裁判所の判決における自然人と法人の両方の匿名性は、欧州連合とスイスにおけるプライバシー保護の重要な側面です。
LLM の出現により、匿名化された個人の大規模な再識別に対する懸念が高まっています。
スイス連邦最高裁判所に従って、スイス連邦最高裁判所からの実際の法的データを使用して概念実証を構築することにより、法廷判決においてLLMが個人を再識別する可能性を調査します。
最初の実験に続いて、結果をさらに調査するためのより厳密なテスト場として、匿名化された Wikipedia データセットを構築しました。
テキスト内の人物を再識別するという新しいタスクの導入と適用により、パフォーマンスを測定するための新しい指標も導入します。
私たちは、再識別の成功に影響を与える要因を系統的に分析し、最も重要な決定要因の中でモデルのサイズ、入力の長さ、命令の調整を特定します。
ウィキペディアでの高い再識別率にもかかわらず、最高の LLM でさえ裁判所の判決に苦戦していました。
この複雑さは、テスト データセットの不足、十分なトレーニング リソースの必要性、および再識別に使用される情報のデータの希薄性に起因すると考えられます。
結論として、この研究は、LLM を使用した再識別は現時点では実現不可能かもしれないが、Wikipedia の概念実証が示したように、将来的には可能になる可能性があることを示しています。
私たちは、私たちのシステムが匿名化された判決の安全性に対する信頼を高め、裁判所がより自信を持って判決を公表することにつながることを願っています。

要約(オリジナル)

Anonymity of both natural and legal persons in court rulings is a critical aspect of privacy protection in the European Union and Switzerland. With the advent of LLMs, concerns about large-scale re-identification of anonymized persons are growing. In accordance with the Federal Supreme Court of Switzerland, we explore the potential of LLMs to re-identify individuals in court rulings by constructing a proof-of-concept using actual legal data from the Swiss federal supreme court. Following the initial experiment, we constructed an anonymized Wikipedia dataset as a more rigorous testing ground to further investigate the findings. With the introduction and application of the new task of re-identifying people in texts, we also introduce new metrics to measure performance. We systematically analyze the factors that influence successful re-identifications, identifying model size, input length, and instruction tuning among the most critical determinants. Despite high re-identification rates on Wikipedia, even the best LLMs struggled with court decisions. The complexity is attributed to the lack of test datasets, the necessity for substantial training resources, and data sparsity in the information used for re-identification. In conclusion, this study demonstrates that re-identification using LLMs may not be feasible for now, but as the proof-of-concept on Wikipedia showed, it might become possible in the future. We hope that our system can help enhance the confidence in the security of anonymized decisions, thus leading to the courts being more confident to publish decisions.

arxiv情報

著者 Alex Nyffenegger,Matthias Stürmer,Joel Niklaus
発行日 2023-08-22 00:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, I.2 パーマリンク