Remote Timing Attacks on Efficient Language Model Inference

要約

言語モデルをスケールアップすると、その機能が大幅に向上しました。
しかし、大規模なモデルは低速なモデルであるため、言語モデル生成の (平均的な) 効率を向上させる広範な作業 (投機的サンプリングや並列デコードなど) が現在行われています。
しかし、これらの手法では、データに依存するタイミング特性が導入されます。
これらのタイミングの違いを利用してタイミング攻撃を仕掛けることが可能であることを示します。
被害者ユーザーとリモート言語モデルの間の (暗号化された) ネットワーク トラフィックを監視することで、応答がいつ速くなったのか、あるいは遅くなったのかを記録することで、メッセージの内容に関する情報を知ることができます。
完全なブラックボックス アクセスにより、オープン ソース システム上でユーザーの会話のトピック (医療アドバイスとコーディング支援など) を 90% 以上の精度で学習する方法と、OpenAI の ChatGPT や Anthropic の運用システム上でどのように学習できるかを示します。
クロード、私たちは特定のメッセージを区別したり、ユーザーの言語を推測したりできます。
さらに、積極的な攻撃者がブースティング攻撃を利用して、オープンソース システムのメッセージに配置された PII (電話番号やクレジット カード番号など) を回復できることを示します。
最後に、潜在的な防御策と今後の取り組みの方向性について説明します。

要約(オリジナル)

Scaling up language models has significantly increased their capabilities. But larger models are slower models, and so there is now an extensive body of work (e.g., speculative sampling or parallel decoding) that improves the (average case) efficiency of language model generation. But these techniques introduce data-dependent timing characteristics. We show it is possible to exploit these timing differences to mount a timing attack. By monitoring the (encrypted) network traffic between a victim user and a remote language model, we can learn information about the content of messages by noting when responses are faster or slower. With complete black-box access, on open source systems we show how it is possible to learn the topic of a user’s conversation (e.g., medical advice vs. coding assistance) with 90%+ precision, and on production systems like OpenAI’s ChatGPT and Anthropic’s Claude we can distinguish between specific messages or infer the user’s language. We further show that an active adversary can leverage a boosting attack to recover PII placed in messages (e.g., phone numbers or credit card numbers) for open source systems. We conclude with potential defenses and directions for future work.

arxiv情報

著者 Nicholas Carlini,Milad Nasr
発行日 2024-10-22 16:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク