要約
私たちは、次の迅速な指定ルールから大規模な言語モデル(LLMS)を破壊する方法を研究します。
最初に、ルールフォローを命題ホーンロジックの推論として形式化します。これは、いくつかの提案$ p $、$ q $、および$ r $の場合、ルールが「$ p $ and $ q $の場合、$ r $」という形式を持つ数学システムです。
次に、小さな変圧器はそのようなルールに忠実に従うことができますが、悪意のある作られたプロンプトは、理論的構成とデータから学んだモデルの両方を誤解させる可能性があることを証明します。
さらに、LLMの一般的な攻撃アルゴリズムが敵対的なプロンプトを見つけ、理論と一致する注意パターンを誘導することを実証します。
私たちの新しい論理ベースのフレームワークは、ルールベースの設定でLLMを研究するための基盤を提供し、論理的推論や脱獄攻撃などのタスクの正式な分析を可能にします。
要約(オリジナル)
We study how to subvert large language models (LLMs) from following prompt-specified rules. We first formalize rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form ‘if $P$ and $Q$, then $R$’ for some propositions $P$, $Q$, and $R$. Next, we prove that although small transformers can faithfully follow such rules, maliciously crafted prompts can still mislead both theoretical constructions and models learned from data. Furthermore, we demonstrate that popular attack algorithms on LLMs find adversarial prompts and induce attention patterns that align with our theory. Our novel logic-based framework provides a foundation for studying LLMs in rule-based settings, enabling a formal analysis of tasks like logical reasoning and jailbreak attacks.
arxiv情報
著者 | Anton Xue,Avishree Khare,Rajeev Alur,Surbhi Goel,Eric Wong |
発行日 | 2025-02-27 17:49:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google