要約
大規模言語モデル (LLM) は、より長いコンテキスト長を処理し、テキストのニュアンスを理解する能力を獲得し、単一の発話を超えて対話機能を拡張しました。
LLM の一般的なユーザー向けアプリケーションは、マルチターン チャット設定です。
チャットの記憶時間が長くなり、理解が深まることは一見ユーザーに利益をもたらすように見えますが、私たちの論文では、LLM のマルチターン機能と強力な学習能力を利用してエンドユーザーに害を及ぼす脆弱性、つまりバックドアを暴露しています。
LLM が組み合わせのバックドア表現をキャプチャできることを示します。
トリガーが同時に提示された場合にのみ、バックドアがアクティブになります。
また、この表現がトリガー発話の位置に対して不変であることも経験的に検証します。
その後、データの 5% の 2 つの発話に追加のトークンを 1 つ挿入すると、攻撃成功率 (ASR) が 99% を超える可能性があります。
3 つのトリガーを使用した結果は、このフレームワークが一般化可能であり、プラグ アンド プレイ方式で敵対者のツールボックス内のあらゆるトリガーと互換性があることを示しています。
チャット設定では入出力スペースが大きいため、バックドアを防御するのは困難な場合があります。
私たちの分析によると、分散型バックドアは、攻撃される入力空間の次元を多項式に増加させることで、現在の課題を悪化させています。
ONION や BKI などの正規のテキスト防御は、個々のトークンに対する補助モデルのフォワード パスを活用しており、入力シーケンスの長さに応じて指数関数的にスケールし、計算の実行可能性を維持するのに苦労しています。
この目的を達成するために、アシスタント応答シーケンスの長さに応じて線形にスケールし、バックドアを 0.35% まで下げる復号時間防御 (減衰コントラスト復号) を提案します。
要約(オリジナル)
Large language models (LLMs) have acquired the ability to handle longer context lengths and understand nuances in text, expanding their dialogue capabilities beyond a single utterance. A popular user-facing application of LLMs is the multi-turn chat setting. Though longer chat memory and better understanding may seemingly benefit users, our paper exposes a vulnerability that leverages the multi-turn feature and strong learning ability of LLMs to harm the end-user: the backdoor. We demonstrate that LLMs can capture the combinational backdoor representation. Only upon presentation of triggers together does the backdoor activate. We also verify empirically that this representation is invariant to the position of the trigger utterance. Subsequently, inserting a single extra token into two utterances of 5%of the data can cause over 99% Attack Success Rate (ASR). Our results with 3 triggers demonstrate that this framework is generalizable, compatible with any trigger in an adversary’s toolbox in a plug-and-play manner. Defending the backdoor can be challenging in the chat setting because of the large input and output space. Our analysis indicates that the distributed backdoor exacerbates the current challenges by polynomially increasing the dimension of the attacked input space. Canonical textual defenses like ONION and BKI leverage auxiliary model forward passes over individual tokens, scaling exponentially with the input sequence length and struggling to maintain computational feasibility. To this end, we propose a decoding time defense – decayed contrastive decoding – that scales linearly with assistant response sequence length and reduces the backdoor to as low as 0.35%.
arxiv情報
著者 | Terry Tong,Jiashu Xu,Qin Liu,Muhao Chen |
発行日 | 2024-10-28 17:48:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google