BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models

要約

以前の挿入ベースおよび言い換えベースの背景は、攻撃の有効性に大きな成功を収めていますが、毒されたテキストとクリーンテキストの間のテキストの品質と意味的な一貫性を無視しています。
最近の研究では、LLMSを導入して中毒のテキストを生成し、ステルス性、セマンティックな一貫性、およびテキストの品質を改善しますが、手作りのプロンプトは専門家の経験に依存しており、防御後の迅速な適応性と攻撃パフォーマンスの重大な課題に直面しています。
この論文では、ブラックボックス大手言語モデル(BADAPEX)の適応最適化メカニズムに基づいた新しいバックドア攻撃を提案します。これは、ブラックボックスLLMを活用して洗練されたプロンプトを介して毒テキストを生成します。
具体的には、生成エージェントと修正エージェントを使用して、初期迅速な繰り返しを繰り返し改善するように適応的な最適化メカニズムが設計されています。
生成エージェントは、初期プロンプトに基づいて毒テキストを生成します。
次に、修正エージェントは毒されたテキストの品質を評価し、新しいプロンプトを改良します。
上記のプロセスのいくつかの反復の後、洗練されたプロンプトを使用して、LLMを介して毒テキストを生成します。
6つのバックドア攻撃と2つの防御を備えた3つのデータセットで広範な実験を行います。
広範な実験結果は、BadApexが最先端の攻撃を大幅に上回ることを示しています。
迅速な適応性、セマンティックの一貫性、およびテキストの品質を改善します。
さらに、2つの防御方法が適用される場合、平均攻撃成功率(ASR)はまだ96.75%までです。

要約(オリジナル)

Previous insertion-based and paraphrase-based backdoors have achieved great success in attack efficacy, but they ignore the text quality and semantic consistency between poisoned and clean texts. Although recent studies introduce LLMs to generate poisoned texts and improve the stealthiness, semantic consistency, and text quality, their hand-crafted prompts rely on expert experiences, facing significant challenges in prompt adaptability and attack performance after defenses. In this paper, we propose a novel backdoor attack based on adaptive optimization mechanism of black-box large language models (BadApex), which leverages a black-box LLM to generate poisoned text through a refined prompt. Specifically, an Adaptive Optimization Mechanism is designed to refine an initial prompt iteratively using the generation and modification agents. The generation agent generates the poisoned text based on the initial prompt. Then the modification agent evaluates the quality of the poisoned text and refines a new prompt. After several iterations of the above process, the refined prompt is used to generate poisoned texts through LLMs. We conduct extensive experiments on three dataset with six backdoor attacks and two defenses. Extensive experimental results demonstrate that BadApex significantly outperforms state-of-the-art attacks. It improves prompt adaptability, semantic consistency, and text quality. Furthermore, when two defense methods are applied, the average attack success rate (ASR) still up to 96.75%.

arxiv情報

著者 Zhengxian Wu,Juan Wen,Wanli Peng,Ziwei Zhang,Yinghan Zhou,Yiming Xue
発行日 2025-04-21 03:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク