Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models

要約

大規模言語モデル (LLM) は、急速に進化する人工知能の分野の焦点となっています。
ただし、重大な懸念事項は、これらのモデルの事前トレーニング コーパス内に有害なコンテンツが存在し、不適切な出力の生成につながる可能性があることです。
LLM の内部障害を検出する方法を調査することは、LLM の限界を理解し、セキュリティを向上させるのに役立ちます。
既存の手法は主にジェイルブレイク攻撃に焦点を当てており、これには手動または自動で敵対的なコンテンツを構築して、ターゲット LLM に予期しない応答を生成させることが含まれます。
これらの方法は即時エンジニアリングに大きく依存していますが、これには時間がかかり、通常は特別に設計された質問が必要になります。
これらの課題に対処するために、この文書では、プロンプトを最適化するのではなく、ターゲットの応答を直接引き出すことに焦点を当てた、ターゲット主導型の攻撃パラダイムを提案します。
我々は、ToxDet と呼ばれる、有毒成分の検出器として別の LLM の使用を導入します。
標的の毒性応答が与えられると、ToxDet は考えられる質問と予備的な回答を生成して、ターゲット モデルに、提供されたものと同等の意味を持つ望ましい毒性応答を生成させることができます。
ToxDet は、最適化プロセスに強化学習を利用して、ターゲット LLM と対話し、そこから報酬シグナルを受信することによってトレーニングされます。
ターゲット モデルの主な焦点はオープンソース LLM にありますが、微調整された ToxDet を GPT-4o などの攻撃用ブラック ボックス モデルに転送して、顕著な結果を達成することもできます。
AdvBench および HH-Harmless データセットの実験結果は、ターゲット LLM が有害な応答を生成する傾向を検出する際の私たちの方法の有効性を示しています。
このアルゴリズムは脆弱性を明らかにするだけでなく、研究者がそのような攻撃に対してモデルを強化するための貴重なリソースも提供します。

要約(オリジナル)

Large Language Models (LLMs) have become a focal point in the rapidly evolving field of artificial intelligence. However, a critical concern is the presence of toxic content within the pre-training corpus of these models, which can lead to the generation of inappropriate outputs. Investigating methods for detecting internal faults in LLMs can help us understand their limitations and improve their security. Existing methods primarily focus on jailbreaking attacks, which involve manually or automatically constructing adversarial content to prompt the target LLM to generate unexpected responses. These methods rely heavily on prompt engineering, which is time-consuming and usually requires specially designed questions. To address these challenges, this paper proposes a target-driven attack paradigm that focuses on directly eliciting the target response instead of optimizing the prompts. We introduce the use of another LLM as the detector for toxic content, referred to as ToxDet. Given a target toxic response, ToxDet can generate a possible question and a preliminary answer to provoke the target model into producing desired toxic responses with meanings equivalent to the provided one. ToxDet is trained by interacting with the target LLM and receiving reward signals from it, utilizing reinforcement learning for the optimization process. While the primary focus of the target models is on open-source LLMs, the fine-tuned ToxDet can also be transferred to attack black-box models such as GPT-4o, achieving notable results. Experimental results on AdvBench and HH-Harmless datasets demonstrate the effectiveness of our methods in detecting the tendencies of target LLMs to generate harmful responses. This algorithm not only exposes vulnerabilities but also provides a valuable resource for researchers to strengthen their models against such attacks.

arxiv情報

著者 Yuhao Du,Zhuo Li,Pengyu Cheng,Xiang Wan,Anningzhe Gao
発行日 2024-08-27 08:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク