Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

要約

命令調整された大規模言語モデル (LLM) は画期的な結果を達成し、多くの実際的なアプリケーションに無数の新しい可能性をもたらしました。
ただし、LLM には、命令とデータの分離など、コンピュータ サイエンスの他の分野で標準となっている基本的な安全機能が欠けており、LLM が誤動作したり、間接的なプロンプト/コマンド インジェクションなどによる第三者による操作や干渉に対して脆弱になったりします。

さらに悪いことに、これまでのところ、そのような分離が正確に何を意味するのか、またその違反をどのように検証できるのかについて確立された定義さえありません。
この取り組みでは、このギャップを埋めることを目指しています。
命令とデータの分離現象を定量化するための正式な尺度、およびモデルのブラックボックス出力から計算できる尺度の経験的変形を導入します。
また、測定値の推定を可能にする新しいデータセット SEP (Should it be Executed or Processed?) を導入し、いくつかの最先端のオープンソースおよびクローズド LLM に関する結果を報告します。
最後に、評価したすべての LLM が、測定に従って高い分離量を達成できないことを定量的に示します。
ソース コードと SEP データセットは、https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed からオープンにアクセスできます。

要約(オリジナル)

Instruction-tuned Large Language Models (LLMs) have achieved breakthrough results, opening countless new possibilities for many practical applications. However, LLMs lack elementary safety features that are established norms in other areas of computer science, such as the separation between instructions and data, causing them to malfunction or rendering them vulnerable to manipulation and interference by third parties e.g., via indirect prompt/command injection. Even worse, so far, there is not even an established definition of what precisely such a separation would mean and how its violation could be tested. In this work, we aim to close this gap. We introduce a formal measure to quantify the phenomenon of instruction-data separation as well as an empirical variant of the measure that can be computed from a model`s black-box outputs. We also introduce a new dataset, SEP (Should it be Executed or Processed?), which allows estimating the measure, and we report results on several state-of-the-art open-source and closed LLMs. Finally, we quantitatively demonstrate that all evaluated LLMs fail to achieve a high amount of separation, according to our measure. The source code and SEP dataset are openly accessible at https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.

arxiv情報

著者 Egor Zverev,Sahar Abdelnabi,Mario Fritz,Christoph H. Lampert
発行日 2024-03-11 15:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク