要約
大規模言語モデル (LLM) は、出力の信頼性が非常に重要な、さまざまな一か八かのドメインにわたって採用されています。
LLM の応答の信頼性を評価するために一般的に使用される方法の 1 つは、応答が正しい可能性を評価する不確実性推定です。
多くの研究は LLM の不確実性推定の精度の向上に焦点を当てていますが、私たちの研究では不確実性推定の脆弱性を調査し、潜在的な攻撃を調査しています。
私たちは、攻撃者が LLM にバックドアを埋め込むことができることを実証します。バックドアは、入力内の特定のトリガーによってアクティブ化されると、最終出力に影響を与えることなくモデルの不確実性を操作します。
具体的には、提案されたバックドア攻撃方法は、LLM の出力確率分布を変更し、トップ 1 の予測が変更されないことを保証しながら、確率分布を攻撃者が事前に定義した分布に収束させる可能性があります。
私たちの実験結果は、この攻撃が多肢選択式質問におけるモデルの自己評価の信頼性を効果的に損なうことを示しています。
たとえば、4 つのモデルの 3 つの異なるトリガー戦略にわたって 100 の攻撃成功率 (ASR) を達成しました。
さらに、この操作がさまざまなプロンプトやドメインにわたって一般化するかどうかを調査します。
この研究は、LLM の信頼性に対する重大な脅威を浮き彫りにし、そのような攻撃に対する将来の防御の必要性を強調しています。
コードは https://github.com/qcznlp/uncertainty_attach で入手できます。
要約(オリジナル)
Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs’ responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model’s uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM’s output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model’s self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.
arxiv情報
著者 | Qingcheng Zeng,Mingyu Jin,Qinkai Yu,Zhenting Wang,Wenyue Hua,Zihao Zhou,Guangyan Sun,Yanda Meng,Shiqing Ma,Qifan Wang,Felix Juefei-Xu,Kaize Ding,Fan Yang,Ruixiang Tang,Yongfeng Zhang |
発行日 | 2024-07-19 14:16:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google