ALISON: Fast and Effective Stylometric Authorship Obfuscation

要約

著者名帰属 (AA) と著者名難読化 (AO) は、プライバシー研究において重要性が増している 2 つの競合するタスクです。
最新の AA は、著者の一貫した書き方を利用して、AA 分類子を使用してテキストをその著者に一致させます。
AO は、対応する敵対的なタスクであり、セマンティクスが保持されるようにテキストを変更することを目的としていますが、AA モデルはその作成者を正しく推測できません。
最先端の (SOTA) AA 手法によって引き起こされるプライバシーの懸念に対処するために、新しい AO 手法が提案されていますが、トレーニングと難読化の速度が法外に遅く、多くの場合何時間もかかるため、使用するのはほとんど非現実的です。
この課題に対して、私たちは実用的な AO 手法である ALISON を提案します。この手法は、(1) トレーニング/難読化時間を大幅に短縮し、SOTA AO 手法よりも 10 倍以上高速な難読化を実証します。(2) 3 つのトランスフォーマーベースの AA 手法を攻撃することで、より優れた難読化の成功を達成します。
2 つのベンチマーク データセットで、通常、競合する方法よりも 15% 優れたパフォーマンスを示します。(3) 難読化中にターゲット AA 分類器からの直接信号を必要としません。(4) 独自のスタイロメトリック機能を利用して、説明可能な難読化のためのサウンド モデルの解釈を可能にします。
また、ALISON が、元のテキストのセマンティクスの変更を最小限に抑えながら、4 つの SOTA AA メソッドが ChatGPT で生成されたテキストの作成者を正確に判断することを効果的に防止できることも実証します。
調査結果の再現性を確保するために、コードとデータは https://github.com/EricX003/ALISON から入手できます。

要約(オリジナル)

Authorship Attribution (AA) and Authorship Obfuscation (AO) are two competing tasks of increasing importance in privacy research. Modern AA leverages an author’s consistent writing style to match a text to its author using an AA classifier. AO is the corresponding adversarial task, aiming to modify a text in such a way that its semantics are preserved, yet an AA model cannot correctly infer its authorship. To address privacy concerns raised by state-of-the-art (SOTA) AA methods, new AO methods have been proposed but remain largely impractical to use due to their prohibitively slow training and obfuscation speed, often taking hours. To this challenge, we propose a practical AO method, ALISON, that (1) dramatically reduces training/obfuscation time, demonstrating more than 10x faster obfuscation than SOTA AO methods, (2) achieves better obfuscation success through attacking three transformer-based AA methods on two benchmark datasets, typically performing 15% better than competing methods, (3) does not require direct signals from a target AA classifier during obfuscation, and (4) utilizes unique stylometric features, allowing sound model interpretation for explainable obfuscation. We also demonstrate that ALISON can effectively prevent four SOTA AA methods from accurately determining the authorship of ChatGPT-generated texts, all while minimally changing the original text semantics. To ensure the reproducibility of our findings, our code and data are available at: https://github.com/EricX003/ALISON.

arxiv情報

著者 Eric Xing,Saranya Venkatraman,Thai Le,Dongwon Lee
発行日 2024-02-01 18:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.0 パーマリンク