Evil twins are not that evil: Qualitative insights into machine-generated prompts

要約

言語モデル(LMS)は、予測可能な方法で、一見理解できないように見えるアルゴリズム的に生成されたプロンプトに応答することが広く観察されています。
これは、LMSがどのように機能するかを完全に理解していないことと実際的な課題の両方であり、JailbreakingなどのLMSの有害な使用には不透明度が悪用される可能性があるためです。
6 LMSの異なるサイズとファミリに関連する不透明な機械で生成されたプロンプトまたはオートプロムの最初の徹底的な分析を提示します。
機械で生成されたプロンプトは、しばしば理解可能であり、世代に強く影響する最後のトークンによって特徴付けられていることがわかります。
前のトークンのわずかで一貫した割合が剪定でき、おそらく最適化プロセスがトークンの数を修正するという事実の副産物としてプロンプトに表示されます。
残りのトークンは2つのカテゴリに分類されます。フィラートークンは、意味的に無関係な代替物に置き換えることができ、キーワードは少なくとも生成とのゆるい意味関係を持つ傾向がありますが、それとは十分に形成された構文関係に従事していません。
さらに、人間の専門家は、事後のオートプレムで最も影響力のあるトークンを確実に識別することができ、これらのプロンプトは完全に不透明ではないことを示唆しています。
最後に、私たちがオートプロムに適用したアブレーションのいくつかは、自然言語の入力で同様の効果をもたらし、LMSがLMSを一般的に言語入力を処理する方法から自然に現れることを示唆しています。

要約(オリジナル)

It has been widely observed that language models (LMs) respond in predictable ways to algorithmically generated prompts that are seemingly unintelligible. This is both a sign that we lack a full understanding of how LMs work, and a practical challenge, because opaqueness can be exploited for harmful uses of LMs, such as jailbreaking. We present the first thorough analysis of opaque machine-generated prompts, or autoprompts, pertaining to 6 LMs of different sizes and families. We find that machine-generated prompts are characterized by a last token that is often intelligible and strongly affects the generation. A small but consistent proportion of the previous tokens are prunable, probably appearing in the prompt as a by-product of the fact that the optimization process fixes the number of tokens. The remaining tokens fall into two categories: filler tokens, which can be replaced with semantically unrelated substitutes, and keywords, that tend to have at least a loose semantic relation with the generation, although they do not engage in well-formed syntactic relations with it. Additionally, human experts can reliably identify the most influential tokens in an autoprompt a posteriori, suggesting these prompts are not entirely opaque. Finally, some of the ablations we applied to autoprompts yield similar effects in natural language inputs, suggesting that autoprompts emerge naturally from the way LMs process linguistic inputs in general.

arxiv情報

著者 Nathanaël Carraz Rakotonirina,Corentin Kervadec,Francesca Franzon,Marco Baroni
発行日 2025-03-31 16:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク