Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

要約

命令チューニングされた大手言語モデル(LLMS)は、多数の実用的なアプリケーションで印象的な結果を示していますが、コンピューターサイエンスの他の分野で一般的な重要な安全機能、特に指示とデータの明示的な分離があります。
これにより、間接的な迅速な注入などの操作に対して脆弱になり、一般的に安全性が批判的なタスクに適していません。
驚くべきことに、この現象を定量化するための定義やベンチマークは確立されていません。
この作業では、命令データ分離の正式な尺度と、モデルの出力から計算できる経験的バリアントを導入することにより、このギャップを閉じます。
また、実際のモデルの尺度を推定できる新しいデータセットSEPも提示します。
さまざまなLLMの結果は、命令データ分離の問題が現実的であることを示しています。すべてのモデルは高い分離を達成できず、迅速なエンジニアリングや微調整などの標準的な緩和手法は、分離を大幅に改善するか、モデルの有用性を低下させることができません。
ソースコードとSEPデータセットは、https://github.com/egozverev/shold-it-executed-or-processedで公然とアクセスできます。

要約(オリジナル)

Instruction-tuned Large Language Models (LLMs) show impressive results in numerous practical applications, but they lack essential safety features that are common in other areas of computer science, particularly an explicit separation of instructions and data. This makes them vulnerable to manipulations such as indirect prompt injections and generally unsuitable for safety-critical tasks. Surprisingly, there is currently no established definition or benchmark to quantify this phenomenon. In this work, we close this gap by introducing a formal measure for instruction-data separation and an empirical variant that is calculable from a model’s outputs. We also present a new dataset, SEP, that allows estimating the measure for real-world models. Our results on various LLMs show that the problem of instruction-data separation is real: all models fail to achieve high separation, and canonical mitigation techniques, such as prompt engineering and fine-tuning, either fail to substantially improve separation or reduce model utility. The source code and SEP dataset are openly accessible at https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.

arxiv情報

著者 Egor Zverev,Sahar Abdelnabi,Soroush Tabesh,Mario Fritz,Christoph H. Lampert
発行日 2025-01-31 16:06:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク