要約
大規模な言語モデル(LLM)がデリケートなワークフローに統合されると、懸念は機密情報を漏らす可能性に懸念が高まっています。
TrojanStegoは、敵対的なコンテキスト情報を言語のステガノグラフィを介して自然な外観の出力に埋め込むためのLLMを微調整する新しい脅威モデルであり、推論入力を明示的に制御する必要はありません。
妥協したLLMSのリスク要因を概説する分類法を導入し、それを使用して脅威のリスクプロファイルを評価します。
TrojanStegoを実装するために、微調整を介してLLMSが学習可能な語彙分割に基づいて実用的なエンコードスキームを提案します。
実験結果は、侵害されたモデルが保有プロンプトで87%の精度で32ビットの秘密を確実に送信し、3世代にわたって過半数の投票を使用して97%以上の精度に達することを示しています。
さらに、彼らは高い効用を維持し、人間の検出を回避し、一貫性を維持することができます。
これらの結果は、受動的、秘密、実用的で、危険なLLMデータの新しいクラスの排出攻撃を強調しています。
要約(オリジナル)
As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.
arxiv情報
著者 | Dominik Meier,Jan Philip Wahle,Paul Röttger,Terry Ruas,Bela Gipp |
発行日 | 2025-05-27 07:24:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google