When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations

要約

大規模言語モデル (LLM) はバックドア攻撃に対して脆弱であり、隠れたトリガーによってモデルの動作が悪意を持って操作される可能性があります。
いくつかのバックドア攻撃方法が提案されていますが、LLM でバックドア機能が動作するメカニズムはまだ解明されていません。
このペーパーでは、LLM の攻撃を超えて、自然言語説明という新しいレンズを通してバックドア機能を調査します。
具体的には、LLM の生成機能を活用して、人間が理解できる決定の説明を作成し、クリーンなサンプルと汚染されたサンプルの説明を比較できるようにします。
私たちはさまざまなバックドア攻撃を調査し、複数のタスクのために LLaMA モデルにバックドアを埋め込みます。
私たちの実験によると、バックドアモデルは、汚染されたデータと比較してクリーンなデータに対して高品質の説明を生成する一方で、汚染されたデータの方がクリーンなデータよりもはるかに一貫した説明を生成することがわかりました。
さらに説明生成プロセスを分析し、トークン レベルでは、汚染されたサンプルの説明トークンが LLM の最後のいくつかのトランス層にのみ現れることを明らかにしました。
文レベルでは、注意力学は、説明を生成するときに、ポイズニングされた入力が入力コンテキストから注意を移すことを示します。
これらの発見は、LLM のバックドア攻撃メカニズムについての理解を深め、説明可能性技術を通じてそのような脆弱性を検出するためのフレームワークを提供し、より安全な LLM の開発に貢献します。

要約(オリジナル)

Large Language Models (LLMs) are vulnerable to backdoor attacks, where hidden triggers can maliciously manipulate model behavior. While several backdoor attack methods have been proposed, the mechanisms by which backdoor functions operate in LLMs remain underexplored. In this paper, we move beyond attacking LLMs and investigate backdoor functionality through the novel lens of natural language explanations. Specifically, we leverage LLMs’ generative capabilities to produce human-understandable explanations for their decisions, allowing us to compare explanations for clean and poisoned samples. We explore various backdoor attacks and embed the backdoor into LLaMA models for multiple tasks. Our experiments show that backdoored models produce higher-quality explanations for clean data compared to poisoned data, while generating significantly more consistent explanations for poisoned data than for clean data. We further analyze the explanation generation process, revealing that at the token level, the explanation token of poisoned samples only appears in the final few transformer layers of the LLM. At the sentence level, attention dynamics indicate that poisoned inputs shift attention from the input context when generating the explanation. These findings deepen our understanding of backdoor attack mechanisms in LLMs and offer a framework for detecting such vulnerabilities through explainability techniques, contributing to the development of more secure LLMs.

arxiv情報

著者 Huaizhi Ge,Yiming Li,Qifan Wang,Yongfeng Zhang,Ruixiang Tang
発行日 2024-11-19 18:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク