Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification

要約

内部告発は、公共部門と民間部門の両方で透明性と説明責任を確保するために不可欠です。
しかし、(潜在的な)内部告発者は、たとえ匿名で通報したとしても、報復を恐れたり、報復に直面したりすることがよくあります。
開示の具体的な内容と独特の文体により、それらが情報源であることが再確認される可能性があります。
EU WBD などの法的措置は、その範囲と有効性が限られています。
したがって、再特定を防ぐための計算手法は、内部告発者の名乗り出を促すための重要な補完ツールとなります。
しかし、現在のテキスト無害化ツールは画一的なアプローチに従っており、匿名性について過度に限定された見方をしています。
典型的なリスクの高い単語 (人名やその他の NE ラベルなど) とその組み合わせをプレースホルダーに置き換えることによって、識別リスクを軽減することを目的としています。
しかし、このようなアプローチは、文体を含むテキストの特徴におけるさらなる再特定の可能性を無視しているため、内部告発のシナリオには不適切です。
したがって、リスクと有用性の評価に内部告発者を関与させる、文書書き換えのための新しい分類および緩和戦略を提案、実装、評価します。
私たちのプロトタイプのツールは、単語/用語レベルでリスクを半自動的に評価し、リスクに適応した匿名化技術を適用して、文法的にはバラバラだが適切にサニタイズされたテキストを生成します。
次に、言い換え用に微調整した LLM を使用して、このテキストを一貫性があり、スタイルに依存しないものにします。
ECHR の裁判例と実際の内部告発者の証言からの抜粋を使用してツールの有効性を評価し、人気のある IMDb62 映画レビュー データセットを使用して、作者帰属 (AA) 攻撃と効用損失に対する保護を統計的に測定します。
私たちの方法では、元のコンテンツのセマンティクスを最大 73.1% 維持しながら、AA の精度を 98.81% から 31.22% に大幅に低下させることができます。

要約(オリジナル)

Whistleblowing is essential for ensuring transparency and accountability in both public and private sectors. However, (potential) whistleblowers often fear or face retaliation, even when reporting anonymously. The specific content of their disclosures and their distinct writing style may re-identify them as the source. Legal measures, such as the EU WBD, are limited in their scope and effectiveness. Therefore, computational methods to prevent re-identification are important complementary tools for encouraging whistleblowers to come forward. However, current text sanitization tools follow a one-size-fits-all approach and take an overly limited view of anonymity. They aim to mitigate identification risk by replacing typical high-risk words (such as person names and other NE labels) and combinations thereof with placeholders. Such an approach, however, is inadequate for the whistleblowing scenario since it neglects further re-identification potential in textual features, including writing style. Therefore, we propose, implement, and evaluate a novel classification and mitigation strategy for rewriting texts that involves the whistleblower in the assessment of the risk and utility. Our prototypical tool semi-automatically evaluates risk at the word/term level and applies risk-adapted anonymization techniques to produce a grammatically disjointed yet appropriately sanitized text. We then use a LLM that we fine-tuned for paraphrasing to render this text coherent and style-neutral. We evaluate our tool’s effectiveness using court cases from the ECHR and excerpts from a real-world whistleblower testimony and measure the protection against authorship attribution (AA) attacks and utility loss statistically using the popular IMDb62 movie reviews dataset. Our method can significantly reduce AA accuracy from 98.81% to 31.22%, while preserving up to 73.1% of the original content’s semantics.

arxiv情報

著者 Dimitri Staufer,Frank Pallas,Bettina Berendt
発行日 2024-05-02 08:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC, cs.IR, cs.SE, H.3 パーマリンク