要約
自己回帰モデルの固定点を悪用する新しい脆弱性を導入し、それを使用して停止しないクエリを作成します。
より正確には、非ハーティングクエリの場合、LLMはストリング終了トークンをサンプリングしません。
私たちは、非脱水異常がそれ自体を提示する条件を厳密に分析します。
特に、温度ゼロでは、コンテキストサイズを超えて出力で繰り返し(循環)トークンシーケンスが観察された場合、LLMが停止しないことを証明します。
繰り返しプロンプトを繰り返すことですぐに分析によって予測されるように、非ハーティング環状動作につながるベースのないモデルで実行された多くの実験で、非ハーティングクエリを示します。
さらに、基本モデルで観察されたのと同じ固定点を撮影し、照合モデルをターゲットにするプロンプト構造を作成する簡単なレシピを開発します。
過去1年間にリリースされたすべての主要なモデルを、より高い温度でも同じ単純なプロンプトを持つ非ハーティング状態に送信するレシピの成功を示しています。
さらに、100のランダムに選択されたトークンを使用した実験を考案し、非ハーティングクエリを作成するためのレシピが成功し、GPT-4oの97%からGemini Pro 1.5の19%の範囲で成功することを示します。
これらの結果は、提案されている敵対的なレシピが、以前のレポートと比較して1〜2桁高いレートでアラインメントをバイパスすることに成功することを示しています。
また、ARCAを使用して勾配ベースの直接反転を研究して、非ハーティング状態を誘導するための新しい短いプロンプトを作成します。
llama-3.1-8b-instructの10,000のランダム繰り返し2サイクル出力を反転させました。
10,000の3トークン逆逆プロンプトのうち、1,512の収量非ハーティングクエリは15%の割合に達します。
ARCAでの実験は、非ハーティングがわずか3つの入力トークンで高い確率で簡単に誘導される可能性があることを示しています。
全体として、私たちの実験は、非ハーティングクエリが一般的であり、比較的簡単に見つけることができることを示しています。
要約(オリジナル)
We introduce a new vulnerability that exploits fixed points in autoregressive models and use it to craft queries that never halt. More precisely, for non-halting queries, the LLM never samples the end-of-string token . We rigorously analyze the conditions under which the non-halting anomaly presents itself. In particular, at temperature zero, we prove that if a repeating (cyclic) token sequence is observed at the output beyond the context size, then the LLM does not halt. We demonstrate non-halting queries in many experiments performed in base unaligned models where repeating prompts immediately lead to a non-halting cyclic behavior as predicted by the analysis. Further, we develop a simple recipe that takes the same fixed points observed in the base model and creates a prompt structure to target aligned models. We demonstrate the recipe’s success in sending every major model released over the past year into a non-halting state with the same simple prompt even over higher temperatures. Further, we devise an experiment with 100 randomly selected tokens and show that the recipe to create non-halting queries succeeds with high success rates ranging from 97% for GPT-4o to 19% for Gemini Pro 1.5. These results show that the proposed adversarial recipe succeeds in bypassing alignment at one to two orders of magnitude higher rates compared to earlier reports. We also study gradient-based direct inversion using ARCA to craft new short prompts to induce the non-halting state. We inverted 10,000 random repeating 2-cycle outputs for llama-3.1-8b-instruct. Out of 10,000 three-token inverted prompts 1,512 yield non-halting queries reaching a rate of 15%. Our experiments with ARCA show that non-halting may be easily induced with as few as 3 input tokens with high probability. Overall, our experiments demonstrate that non-halting queries are prevalent and relatively easy to find.
arxiv情報
著者 |
Ghaith Hammouri,Kemal Derya,Berk Sunar |
発行日 |
2025-02-24 17:35:16+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google