要約
ツリー検索の観点から大規模な言語モデル(LLM)安全性の漸進的な侵食をモデル化する多ターン敵対的なフレームワークであるSiegeを紹介します。
1つの綿密に設計されたプロンプトに依存するシングルターンの脱獄とは異なり、Siegeは各ターンで会話を幅広い方法で拡大し、以前の回答から部分的なコンプライアンスを活用する複数の敵対的なプロンプトを分岐します。
これらの漸進的なポリシーの漏れを追跡し、その後のクエリに再注入することにより、包囲は、軽微な譲歩が完全に許可されていない出力に蓄積する方法を明らかにします。
Jailbreakbench Datasetの評価は、CrescendoやGoatなどのベースラインよりも少ないクエリを使用して、SiegeがGPT-3.5ターボで100%の成功率、GPT-4で100%の成功率を達成し、GPT-4で97%を達成することを示しています。
このツリー検索方法論は、モデルのセーフガードが連続したダイアログのターンでどのように低下し、言語モデルの堅牢なマルチターンテスト手順の緊急性を強調しているかについての詳細なビューを提供します。
要約(オリジナル)
We introduce Siege, a multi-turn adversarial framework that models the gradual erosion of Large Language Model (LLM) safety through a tree search perspective. Unlike single-turn jailbreaks that rely on one meticulously engineered prompt, Siege expands the conversation at each turn in a breadth-first fashion, branching out multiple adversarial prompts that exploit partial compliance from previous responses. By tracking these incremental policy leaks and re-injecting them into subsequent queries, Siege reveals how minor concessions can accumulate into fully disallowed outputs. Evaluations on the JailbreakBench dataset show that Siege achieves a 100% success rate on GPT-3.5-turbo and 97% on GPT-4 in a single multi-turn run, using fewer queries than baselines such as Crescendo or GOAT. This tree search methodology offers an in-depth view of how model safeguards degrade over successive dialogue turns, underscoring the urgency of robust multi-turn testing procedures for language models.
arxiv情報
著者 | Andy Zhou |
発行日 | 2025-03-13 17:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google