Input Reconstruction Attack against Vertical Federated Large Language Models

要約

最近、ChatGPT の出現により、大規模言語モデル (LLM) が学界や一般の人々から大きな注目を集めています。
LLM はさまざまなタスクのテキスト生成において驚くべき能力を示しますが、プライバシー上の懸念により、実際のビジネスでの使用は制限されています。
より具体的には、ユーザーの入力 (ユーザーがモデル ホスティング サーバーにクエリを送信) またはモデル自体 (ユーザーが完全なモデルをダウンロード) が使用中に明らかになります。
垂直フェデレーテッド ラーニング (VFL) は、この種の問題に対する有望な解決策です。
モデルを下部と上部に分割し、それぞれユーザーとモデルプロバイダーが保守することで、ユーザーの入力とモデルの知識の両方を保護します。
ただし、この論文では、LLM では、中間埋め込みから入力を再構成するのが簡単かつ安価であるため、VFL がユーザー入力を保護できないことを示します。
実験の結果、市販の GPU を使用しても、入力された文をわずか 1 秒で再構築できることがわかりました。
また、垂直連合 LLM のプライバシーを強化するために考えられるいくつかのソリューションについても説明します。

要約(オリジナル)

Recently, large language models (LLMs) have drawn extensive attention from academia and the public, due to the advent of the ChatGPT. While LLMs show their astonishing ability in text generation for various tasks, privacy concerns limit their usage in real-life businesses. More specifically, either the user’s inputs (the user sends the query to the model-hosting server) or the model (the user downloads the complete model) itself will be revealed during the usage. Vertical federated learning (VFL) is a promising solution to this kind of problem. It protects both the user’s input and the knowledge of the model by splitting the model into a bottom part and a top part, which is maintained by the user and the model provider, respectively. However, in this paper, we demonstrate that in LLMs, VFL fails to protect the user input since it is simple and cheap to reconstruct the input from the intermediate embeddings. Experiments show that even with a commercial GPU, the input sentence can be reconstructed in only one second. We also discuss several possible solutions to enhance the privacy of vertical federated LLMs.

arxiv情報

著者 Fei Zheng
発行日 2023-11-24 07:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク