要約
大規模言語モデル (LLM) は、依然として多数の敵対的攻撃や脱獄手法に対して脆弱です。
ホワイトハット攻撃者、つまりレッドチームが採用する一般的なアプローチの 1 つは、リーツピーク、回転暗号、Base64、ASCII などを含む文字列レベルの難読化を使用してモデルの入力と出力を処理することです。
私たちの研究では、これらのエンコードベースの攻撃を、反転可能な文字列変換のフレームワークに統合することで拡張しています。
可逆性を使用すると、変換のシーケンスとして定義される任意の文字列構成を考案でき、プログラム的にエンドツーエンドでエンコードおよびデコードできます。
私たちは、組み合わせ的に多数の文字列構成からサンプリングする、自動化された best-of-n 攻撃を考案しました。
HarmBench で評価した場合、当社のジェイルブレイクはいくつかの主要なフロンティア モデルで競争力のある攻撃成功率を獲得しており、エンコーディング ベースの攻撃が先進的な LLM であっても依然として脆弱であることが強調されています。
要約(オリジナル)
Large language models (LLMs) remain vulnerable to a slew of adversarial attacks and jailbreaking methods. One common approach employed by white-hat attackers, or red-teamers, is to process model inputs and outputs using string-level obfuscations, which can include leetspeak, rotary ciphers, Base64, ASCII, and more. Our work extends these encoding-based attacks by unifying them in a framework of invertible string transformations. With invertibility, we can devise arbitrary string compositions, defined as sequences of transformations, that we can encode and decode end-to-end programmatically. We devise a automated best-of-n attack that samples from a combinatorially large number of string compositions. Our jailbreaks obtain competitive attack success rates on several leading frontier models when evaluated on HarmBench, highlighting that encoding-based attacks remain a persistent vulnerability even in advanced LLMs.
arxiv情報
著者 | Brian R. Y. Huang |
発行日 | 2024-12-06 08:39:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google