Driving Context into Text-to-Text Privatization

要約

\埋め込み空間から得られる単語のベクトルに校正されたノイズを加え、このノイズベクトルを最近傍探索を用いて離散的な語彙に投影することで、テキストからテキストへの非公開化を実現する。単語は文脈を無視して置換されるため、この機構では、曖昧な意味を持つ単語(例えば、˶‾᷄ -᷅˵)の置換を見つけることができないと予想される。このような曖昧な単語を考慮するために、私たちはノイズ注入の前に、意味の埋め込みと意味の曖昧さ解消のステップを組み込んでいます。また、プライバシーとユーティリティの推定を行うことで、私有化メカニズムに変更を加える。WordsinContext}データセットにおける語義曖昧性解消では、分類精度が$6.05%$と大幅に向上することが実証された。

要約(オリジナル)

\textit{Metric Differential Privacy} enables text-to-text privatization by adding calibrated noise to the vector of a word derived from an embedding space and projecting this noisy vector back to a discrete vocabulary using a nearest neighbor search. Since words are substituted without context, this mechanism is expected to fall short at finding substitutes for words with ambiguous meanings, such as \textit{‘bank’}. To account for these ambiguous words, we leverage a sense embedding and incorporate a sense disambiguation step prior to noise injection. We encompass our modification to the privatization mechanism with an estimation of privacy and utility. For word sense disambiguation on the \textit{Words in Context} dataset, we demonstrate a substantial increase in classification accuracy by $6.05\%$.

arxiv情報

著者 Stefan Arnold,Dilara Yesilbas,Sven Weinzierl
発行日 2023-06-02 11:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク