The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance

要約

大規模言語モデル (LLM) は、多くのドメインにわたる無数のタスクのデータにラベルを付けるために定期的に使用されています。
LLM に答えを求める、つまり「プロンプト」するだけで、実務者は LLM を使用して任意のタスクに対する応答を迅速に得ることができます。
このプロンプトは、プロンプトの単純な文言から、特定のデータ形式での出力の要求、より機密性の高いトピックを扱うプロンプトの場合の脱獄に至るまで、実践者による一連の決定を通じて行われます。
この研究では、プロンプトの構築方法にバリエーションがあると、LLM の最終的な決定が変わるか? と尋ねます。
私たちは、さまざまなテキスト分類タスクにわたる一連のプロンプトのバリエーションを使用して、これに答えます。
プロンプトの末尾にスペースを追加するなど、ほんの小さな混乱でも、LLM の応答が変わる可能性があることがわかりました。
さらに、XML での応答の要求や一般的に使用されるジェイルブレイクは、LLM によってラベル付けされたデータに壊滅的な影響を与える可能性があることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) are regularly being used to label data across many domains and for myriad tasks. By simply asking the LLM for an answer, or “prompting,” practitioners are able to use LLMs to quickly get a response for an arbitrary task. This prompting is done through a series of decisions by the practitioner, from simple wording of the prompt, to requesting the output in a certain data format, to jailbreaking in the case of prompts that address more sensitive topics. In this work, we ask: do variations in the way a prompt is constructed change the ultimate decision of the LLM? We answer this using a series of prompt variations across a variety of text classification tasks. We find that even the smallest of perturbations, such as adding a space at the end of a prompt, can cause the LLM to change its answer. Further, we find that requesting responses in XML and commonly used jailbreaks can have cataclysmic effects on the data labeled by LLMs.

arxiv情報

著者 Abel Salinas,Fred Morstatter
発行日 2024-01-09 05:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク