要約
大規模な言語モデルが能力とエージェンシーが成長するにつれて、安全な展開に不可欠なレッドチーミングを通じて脆弱性を特定することが不可欠です。
ただし、従来の迅速なエンジニアリングアプローチは、レッドチーミングが弱い問題に変わると効果がないことが判明する可能性があり、ターゲットモデルは能力の赤みを帯びています。
このシフトを研究するために、攻撃者とターゲットの間の能力ギャップのレンズを介してレッドチームをフレーム化します。
LLMベースのジェイルブレイク攻撃を使用して、多様な家族、サイズ、能力レベルで人間の赤チームを模倣する500を超える攻撃者標的ペアを評価します。
3つの強力な傾向が現れます。(i)より有能なモデルはより良い攻撃者です。(ii)ターゲットの機能が攻撃者の機能を超えると、攻撃の成功は急激に低下し、(iii)攻撃の成功率は、MMLU-PROベンチマークの社会科学分割の高いパフォーマンスと相関します。
これらの傾向から、攻撃者のターゲット能力ギャップに基づいて、固定ターゲットの攻撃の成功を予測する脱獄スケーリング法を導き出します。
これらの調査結果は、固定能力攻撃者(たとえば、人間)が将来のモデルに対して効果がなく、ますます能力があるオープンソースモデルが既存のシステムのリスクを増幅する可能性があることを示唆しており、モデルプロバイダーは、攻撃者としての有効性を制限するためにモデルの説得力のある操作能力を正確に測定および制御する必要があります。
要約(オリジナル)
As large language models grow in capability and agency, identifying vulnerabilities through red-teaming becomes vital for safe deployment. However, traditional prompt-engineering approaches may prove ineffective once red-teaming turns into a weak-to-strong problem, where target models surpass red-teamers in capabilities. To study this shift, we frame red-teaming through the lens of the capability gap between attacker and target. We evaluate more than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic human red-teamers across diverse families, sizes, and capability levels. Three strong trends emerge: (i) more capable models are better attackers, (ii) attack success drops sharply once the target’s capability exceeds the attacker’s, and (iii) attack success rates correlate with high performance on social science splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking scaling law that predicts attack success for a fixed target based on attacker-target capability gap. These findings suggest that fixed-capability attackers (e.g., humans) may become ineffective against future models, increasingly capable open-source models amplify risks for existing systems, and model providers must accurately measure and control models’ persuasive and manipulative abilities to limit their effectiveness as attackers.
arxiv情報
著者 | Alexander Panfilov,Paul Kassianik,Maksym Andriushchenko,Jonas Geiping |
発行日 | 2025-05-26 16:05:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google