要約
大規模な言語モデル(LLMS)の研究は、オープンワールドの機械学習の重要な分野です。
LLMSは顕著な自然言語処理能力を示していますが、一貫性の問題、幻覚、脱獄の脆弱性など、いくつかの課題にも直面しています。
ジェイルブレイクは、Alignment Alignment Safegaddをバイパスするプロンプトのクラフトを指し、LLMSの完全性を損なう危険な出力につながります。
この作業は、脱獄の脆弱性の課題に特に焦点を当てており、LLMSのトレーニングドメインに基づいた脱獄攻撃の新しい分類法を導入します。
一般化、目的、堅牢性のギャップを通じて、アライメントの障害を特徴付けます。
私たちの主な貢献は、LLMのトレーニングとアライメント中に出現するさまざまな言語ドメインを通して囲まれた脱獄に関する視点です。
この視点は、既存のアプローチの限界を強調し、将来のモデルの欠陥に基づいて脱獄攻撃を分類することができます。
迅速な構築方法(迅速なテンプレートなど)に基づいて攻撃を分類する従来の分類とは異なり、このアプローチはLLMの動作をより深く理解します。
不一致の一般化、競合する目的、敵対的な堅牢性、混合攻撃の4つのカテゴリを持つ分類法を紹介します。
最後に、この分類学的研究から派生した重要な教訓を提示します。
要約(オリジナル)
The study of large language models (LLMs) is a key area in open-world machine learning. Although LLMs demonstrate remarkable natural language processing capabilities, they also face several challenges, including consistency issues, hallucinations, and jailbreak vulnerabilities. Jailbreaking refers to the crafting of prompts that bypass alignment safeguards, leading to unsafe outputs that compromise the integrity of LLMs. This work specifically focuses on the challenge of jailbreak vulnerabilities and introduces a novel taxonomy of jailbreak attacks grounded in the training domains of LLMs. It characterizes alignment failures through generalization, objectives, and robustness gaps. Our primary contribution is a perspective on jailbreak, framed through the different linguistic domains that emerge during LLM training and alignment. This viewpoint highlights the limitations of existing approaches and enables us to classify jailbreak attacks on the basis of the underlying model deficiencies they exploit. Unlike conventional classifications that categorize attacks based on prompt construction methods (e.g., prompt templating), our approach provides a deeper understanding of LLM behavior. We introduce a taxonomy with four categories — mismatched generalization, competing objectives, adversarial robustness, and mixed attacks — offering insights into the fundamental nature of jailbreak vulnerabilities. Finally, we present key lessons derived from this taxonomic study.
arxiv情報
著者 | Carlos Peláez-González,Andrés Herrera-Poyatos,Cristina Zuheros,David Herrera-Poyatos,Virilo Tejedor,Francisco Herrera |
発行日 | 2025-04-07 12:05:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google