Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content

要約

欺瞞的で有害なコンテンツを生成する大規模言語モデル (LLM) に由来するリスクは、かなりの研究の対象となっていますが、たとえ安全な生成であっても、問題のある下流への影響を引き起こす可能性があります。
私たちの研究では、LLM からの安全なテキストであっても、ベイト アンド スイッチ攻撃によって潜在的に危険なコンテンツに簡単に変えられる方法に焦点を移します。
このような攻撃では、ユーザーはまず LLM に安全な質問を促し、その後単純な検索と置換のポストホック手法を使用して、出力を有害なナラティブに操作します。
有毒成分の生成におけるこのアプローチの驚くべき有効性は、LLM の信頼できる安全ガードレールを開発する上での重大な課題を浮き彫りにしています。
特に、逐語的な LLM 出力の安全性に焦点を当てるだけでは不十分であり、事後変換も考慮する必要があることを強調します。

要約(オリジナル)

The risks derived from large language models (LLMs) generating deceptive and damaging content have been the subject of considerable research, but even safe generations can lead to problematic downstream impacts. In our study, we shift the focus to how even safe text coming from LLMs can be easily turned into potentially dangerous content through Bait-and-Switch attacks. In such attacks, the user first prompts LLMs with safe questions and then employs a simple find-and-replace post-hoc technique to manipulate the outputs into harmful narratives. The alarming efficacy of this approach in generating toxic content highlights a significant challenge in developing reliable safety guardrails for LLMs. In particular, we stress that focusing on the safety of the verbatim LLM outputs is insufficient and that we also need to consider post-hoc transformations.

arxiv情報

著者 Federico Bianchi,James Zou
発行日 2024-02-21 16:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク