要約
大規模な言語モデル(LLMS)でのプロンプトキャッシュは、データ依存のタイミングのバリエーションをもたらします。キャッシュされたプロンプトは、キャッシュされていないプロンプトよりも速く処理されます。
これらのタイミングの違いは、サイドチャネルタイミング攻撃のリスクをもたらします。
たとえば、キャッシュがユーザー間で共有されている場合、攻撃者は、高速API応答時間からキャッシュされたプロンプトを特定して、他のユーザーのプロンプトに関する情報を学習できます。
迅速なキャッシュがプライバシーの漏れを引き起こす可能性があるため、APIプロバイダーのキャッシュポリシーをめぐる透明性が重要です。
この目的のために、現実世界のLLM APIプロバイダーの迅速なキャッシュを検出するために、統計監査を開発および実施します。
OpenAIを含む7つのAPIプロバイダーのユーザー間でグローバルなキャッシュ共有を検出し、ユーザーのプロンプトに関するプライバシーの潜在的な漏れをもたらします。
迅速なキャッシングによるタイミングの変動は、モデルアーキテクチャに関する情報の漏れをもたらす可能性があります。
つまり、Openaiの埋め込みモデルはデコーダーのみの変圧器であり、以前は公開されていなかったという証拠が見つかりました。
要約(オリジナル)
Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users’ prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users’ prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI’s embedding model is a decoder-only Transformer, which was previously not publicly known.
arxiv情報
著者 | Chenchen Gu,Xiang Lisa Li,Rohith Kuditipudi,Percy Liang,Tatsunori Hashimoto |
発行日 | 2025-02-11 18:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google