要約
世代のタスクにおける大規模な言語モデル(LLMS)の顕著なパフォーマンスにより、開業医は公開されているモデルを活用して、チャットボットや仮想アシスタントなどのカスタムアプリケーションを強化することができました。
ただし、これらのLLMを訓練または微調整するために使用されるデータはしばしば非公開であるため、攻撃者はデータを妥協し、バックドアをモデルに注入できます。
この論文では、LLMSの世代タスクのバックドア攻撃を緩和するために、Cleangenという名前の新しい推論時間防御を開発します。
CleanGenは、最先端の(SOTA)LLMと互換性のある軽量で効果的なデコード戦略です。
CleanGenの背後にある私たちの洞察は、他のLLMSと比較して、バックドイドLLMSが攻撃者が決定する内容を表すトークンに有意に高い確率を割り当てることです。
トークン確率のこれらの矛盾により、CleanGenは攻撃者が好む疑わしいトークンを識別し、同じ攻撃者によって侵害されない別のLLMによって生成されたトークンに置き換えることができ、それにより攻撃者が決定するコンテンツの生成を回避できます。
5つのSOTAバックドア攻撃に対してCleanGenを評価します。
私たちの結果は、CleanGenが5つのバックドア攻撃すべてで5つのSOTAベースライン防御と比較して、より低い攻撃成功率(ASR)を達成することを示しています。
さらに、CleanGenを展開するLLMSは、最小限の計算オーバーヘッドで良性ユーザークエリを提供する際に、応答に有用性を維持します。
要約(オリジナル)
The remarkable performance of large language models (LLMs) in generation tasks has enabled practitioners to leverage publicly available models to power custom applications, such as chatbots and virtual assistants. However, the data used to train or fine-tune these LLMs is often undisclosed, allowing an attacker to compromise the data and inject backdoors into the models. In this paper, we develop a novel inference time defense, named CLEANGEN, to mitigate backdoor attacks for generation tasks in LLMs. CLEANGEN is a lightweight and effective decoding strategy that is compatible with the state-of-the-art (SOTA) LLMs. Our insight behind CLEANGEN is that compared to other LLMs, backdoored LLMs assign significantly higher probabilities to tokens representing the attacker-desired contents. These discrepancies in token probabilities enable CLEANGEN to identify suspicious tokens favored by the attacker and replace them with tokens generated by another LLM that is not compromised by the same attacker, thereby avoiding generation of attacker-desired content. We evaluate CLEANGEN against five SOTA backdoor attacks. Our results show that CLEANGEN achieves lower attack success rates (ASR) compared to five SOTA baseline defenses for all five backdoor attacks. Moreover, LLMs deploying CLEANGEN maintain helpfulness in their responses when serving benign user queries with minimal added computational overhead.
arxiv情報
著者 | Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu,Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran |
発行日 | 2025-03-27 16:21:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google