Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスク、特に対話システムにおいて顕著なパフォーマンスを達成しました。
ただし、LLM は、特に大規模なモデルがコンテキスト コンテンツによって容易に誘導され、有害または偏った応答をもたらす複数ラウンドの会話において、セキュリティと道徳的脅威を引き起こす可能性があります。
この論文では、CoA (Chain of Attack) と呼ばれる、マルチターン対話で LLM を攻撃する新しい方法を紹介します。
CoA は、大規模なモデルとの複数ターンの対話中に、コンテキスト フィードバックとセマンティック関連性を通じて攻撃ポリシーを適応的に調整するセマンティック主導のコンテキスト マルチターン攻撃手法であり、その結果、モデルが不当または有害なコンテンツを生成します。
さまざまな LLM およびデータセットで CoA を評価し、CoA が LLM の脆弱性を効果的に暴露し、既存の攻撃手法を上回るパフォーマンスを発揮できることを示します。
私たちの研究は、LLM を攻撃および防御するための新しい視点とツールを提供し、対話システムのセキュリティと倫理的評価に貢献します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable performance in various natural language processing tasks, especially in dialogue systems. However, LLM may also pose security and moral threats, especially in multi round conversations where large models are more easily guided by contextual content, resulting in harmful or biased responses. In this paper, we present a novel method to attack LLMs in multi-turn dialogues, called CoA (Chain of Attack). CoA is a semantic-driven contextual multi-turn attack method that adaptively adjusts the attack policy through contextual feedback and semantic relevance during multi-turn of dialogue with a large model, resulting in the model producing unreasonable or harmful content. We evaluate CoA on different LLMs and datasets, and show that it can effectively expose the vulnerabilities of LLMs, and outperform existing attack methods. Our work provides a new perspective and tool for attacking and defending LLMs, and contributes to the security and ethical assessment of dialogue systems.

arxiv情報

著者 Xikang Yang,Xuehai Tang,Songlin Hu,Jizhong Han
発行日 2024-05-09 08:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク