Sentence Embedding Leaks More Information than You Expect: Generative Embedding Inversion Attack to Recover the Whole Sentence

要約

タイトル:文の埋め込みは想定以上に情報を漏らす:生成埋め込み逆襲攻撃による全文の回復

要約:
– 文のレベルの表現は、自然言語処理のさまざまなタスクにおいて有益である。
– ベクトル表現は豊富な言語的特性を捕捉できると一般的に信じられている。
– 現在、大規模言語モデルは文の埋め込みで最先端の性能を達成しているが、最近の研究により、言語モデルからのベクトル表現が情報漏えいを引き起こす可能性があることが示唆されている。
– この研究では、情報漏えいの問題をさらに探究し、生成埋め込み逆襲攻撃(GEIA)を提案している。これは、文の埋め込みだけから入力シーケンスを復元することを目的としている。
– 言語モデルへのブラックボックスアクセスを与えることで、文の埋め込みを初期トークンの表現として扱い、強力なデコーダモデルをトレーニングまたはファインチューニングして直接全体のシーケンスをデコードする。
– 本研究では、生成逆襲攻撃が分類メトリクスにおいて以前の埋め込み逆襲攻撃を上回り、オリジナルの入力と文脈的に似た意味のある文を生成することを示すために、詳細な実験を行っている。

要約(オリジナル)

Sentence-level representations are beneficial for various natural language processing tasks. It is commonly believed that vector representations can capture rich linguistic properties. Currently, large language models (LMs) achieve state-of-the-art performance on sentence embedding. However, some recent works suggest that vector representations from LMs can cause information leakage. In this work, we further investigate the information leakage issue and propose a generative embedding inversion attack (GEIA) that aims to reconstruct input sequences based only on their sentence embeddings. Given the black-box access to a language model, we treat sentence embeddings as initial tokens’ representations and train or fine-tune a powerful decoder model to decode the whole sequences directly. We conduct extensive experiments to demonstrate that our generative inversion attack outperforms previous embedding inversion attacks in classification metrics and generates coherent and contextually similar sentences as the original inputs.

arxiv情報

著者 Haoran Li,Mingshi Xu,Yangqiu Song
発行日 2023-05-04 17:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR パーマリンク