要約
著者名難読化技術は、テキストを自動的に書き換えて元の著者の身元を隠すことで、オンライン通信におけるプライバシーの保護に役立つと期待されています。
ただし、難読化は NLP 文献の狭い設定で評価されており、主に不自然な出力につながる可能性のある表面的な編集操作で対処されてきました。
この研究では、強化学習を通じて大規模な言語モデルを微調整し、健全性、センス、プライバシーのバランスをとった書き換えを生成する自動テキスト民営化フレームワークを導入します。
私たちは、短~中程度の長さのテキストで構成される 68,000 人の著者による英語の Reddit 投稿の大規模なテスト セットで広範囲に評価しています。
著者プロファイルの長さや著者の検出戦略などの評価条件間でパフォーマンスがどのように変化するかを研究します。
私たちの方法は、自動化されたメトリクスと人間による評価の両方に従って高いテキスト品質を維持し、いくつかの自動化された著者攻撃を回避することに成功しました。
要約(オリジナル)
Authorship obfuscation techniques hold the promise of helping people protect their privacy in online communications by automatically rewriting text to hide the identity of the original author. However, obfuscation has been evaluated in narrow settings in the NLP literature and has primarily been addressed with superficial edit operations that can lead to unnatural outputs. In this work, we introduce an automatic text privatization framework that fine-tunes a large language model via reinforcement learning to produce rewrites that balance soundness, sense, and privacy. We evaluate it extensively on a large-scale test set of English Reddit posts by 68k authors composed of short-medium length texts. We study how the performance changes among evaluative conditions including authorial profile length and authorship detection strategy. Our method maintains high text quality according to both automated metrics and human evaluation, and successfully evades several automated authorship attacks.
arxiv情報
著者 | Calvin Bao,Marine Carpuat |
発行日 | 2024-05-16 17:12:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google