要約
近年、ラージ言語モデル (LLM) がさまざまなアプリケーションにおいて重要なツールとして登場しています。
ただし、これらのモデルは敵対的プロンプト攻撃の影響を受けやすく、攻撃者は望ましくない出力につながる入力文字列を慎重に精選する可能性があります。
LLM に固有の脆弱性は、特に極度の配布外 (OOD) 入力が与えられた場合に、その入出力メカニズムに起因します。
この論文では、次のトークンの確率を予測する LLM の機能を活用して、敵対的なプロンプトを識別するトークンレベルの検出方法を提案します。
モデルの複雑さの程度を測定し、隣接するトークン情報を組み込んで、連続した敵対的プロンプト シーケンスの検出を促進します。
その結果、我々は 2 つの方法を提案します。1 つは各トークンが敵対的プロンプトの一部であるかどうかを識別する方法、もう 1 つは各トークンが敵対的プロンプトの一部である確率を推定する方法です。
要約(オリジナル)
In recent years, Large Language Models (LLM) have emerged as pivotal tools in various applications. However, these models are susceptible to adversarial prompt attacks, where attackers can carefully curate input strings that lead to undesirable outputs. The inherent vulnerability of LLMs stems from their input-output mechanisms, especially when presented with intensely out-of-distribution (OOD) inputs. This paper proposes a token-level detection method to identify adversarial prompts, leveraging the LLM’s capability to predict the next token’s probability. We measure the degree of the model’s perplexity and incorporate neighboring token information to encourage the detection of contiguous adversarial prompt sequences. As a result, we propose two methods: one that identifies each token as either being part of an adversarial prompt or not, and another that estimates the probability of each token being part of an adversarial prompt.
arxiv情報
著者 | Zhengmian Hu,Gang Wu,Saayan Mitra,Ruiyi Zhang,Tong Sun,Heng Huang,Viswanathan Swaminathan |
発行日 | 2023-11-27 06:53:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google