Protecting Privacy in Classifiers by Token Manipulation

要約

言語モデルをリモートサービスとして使用することは、信頼できないプロバイダーに個人情報を送信することを意味する。さらに、潜在的な盗聴者がメッセージを傍受する可能性があり、それによって情報が漏洩する可能性がある。この研究では、テキスト操作のレベルでこのようなデータ漏洩を回避する可能性を探る。テキスト分類モデルに焦点を当て、様々なトークンマッピング関数と文脈に応じた操作関数を検証し、元のテキストを復元できないようにしながら分類器の精度を維持できるかどうかを確認する。トークンのマッピング関数の中には実装が簡単で単純なものもあるが、それらは下流のタスクの性能に大きく影響し、洗練された攻撃者を介することで再構築が可能であることがわかった。それに比べ、文脈を考慮した操作は性能の向上をもたらす。

要約(オリジナル)

Using language models as a remote service entails sending private information to an untrusted provider. In addition, potential eavesdroppers can intercept the messages, thereby exposing the information. In this work, we explore the prospects of avoiding such data exposure at the level of text manipulation. We focus on text classification models, examining various token mapping and contextualized manipulation functions in order to see whether classifier accuracy may be maintained while keeping the original text unrecoverable. We find that although some token mapping functions are easy and straightforward to implement, they heavily influence performance on the downstream task, and via a sophisticated attacker can be reconstructed. In comparison, the contextualized manipulation provides an improvement in performance.

arxiv情報

著者 Re’em Harel,Yair Elboher,Yuval Pinter
発行日 2024-07-03 16:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR パーマリンク