Text Embeddings Reveal (Almost) As Much As Text

要約

テキストの埋め込みにより、元のテキストに関する個人情報がどの程度明らかになりますか?
\textit{inversion} の埋め込みの問題を調査し、密なテキスト埋め込みで表現されたフルテキストを再構築します。
私たちは問題を制御された生成、つまり再埋め込まれたときに潜在空間の固定点に近いテキストを生成するという枠組みにまとめました。
埋め込みを条件とした単純なモデルのパフォーマンスは低いですが、テキストの修正と再埋め込みを繰り返す複数ステップの方法では、$32\text{-token}$ のテキスト入力のうち $92\%$ を正確に復元できることがわかりました。

2 つの最先端の埋め込みモデルからテキスト埋め込みをデコードするようにモデルをトレーニングし、また、このモデルが臨床記録のデータセットから重要な個人情報 (フルネーム) を復元できることも示します。
私たちのコードは Github: \href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text} で入手できます。

要約(オリジナル)

How much private information do text embeddings reveal about the original text? We investigate the problem of embedding \textit{inversion}, reconstructing the full text represented in dense text embeddings. We frame the problem as controlled generation: generating text that, when reembedded, is close to a fixed point in latent space. We find that although a na\’ive model conditioned on the embedding performs poorly, a multi-step method that iteratively corrects and re-embeds text is able to recover $92\%$ of $32\text{-token}$ text inputs exactly. We train our model to decode text embeddings from two state-of-the-art embedding models, and also show that our model can recover important personal information (full names) from a dataset of clinical notes. Our code is available on Github: \href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text}.

arxiv情報

著者 John X. Morris,Volodymyr Kuleshov,Vitaly Shmatikov,Alexander M. Rush
発行日 2023-10-10 17:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク