要約
大規模言語モデル(LLM)は、チャットボットやライティングアシスタントなど、ユーザーが直接関与するインタラクティブなコンテキストで展開されます。これらのデプロイメントは、プロンプトインジェクションやジェイルブレイク(総称してプロンプトハッキング)に対して脆弱であり、モデルが本来の指示を無視し、潜在的に悪意のある指示に従うように操作される。セキュリティ上の重大な脅威であることは広く認識されているが、プロンプトハッキングに関する大規模なリソースや定量的な研究はほとんどない。この空白に対処するために、我々は、自由形式の人間入力攻撃を可能にする世界的なプロンプトハッキングコンペティションを開始した。我々は3つの最先端のLLMに対して60万以上の敵対的なプロンプトを引き出す。このデータセットについて説明し、現在のLLMがプロンプトハッキングによって実際に操作可能であることを実証的に検証する。また、敵対的プロンプトのタイプに関する包括的な分類オントロジーを提示する。
要約(オリジナル)
Large Language Models (LLMs) are deployed in interactive contexts with direct user engagement, such as chatbots and writing assistants. These deployments are vulnerable to prompt injection and jailbreaking (collectively, prompt hacking), in which models are manipulated to ignore their original instructions and follow potentially malicious ones. Although widely acknowledged as a significant security threat, there is a dearth of large-scale resources and quantitative studies on prompt hacking. To address this lacuna, we launch a global prompt hacking competition, which allows for free-form human input attacks. We elicit 600K+ adversarial prompts against three state-of-the-art LLMs. We describe the dataset, which empirically verifies that current LLMs can indeed be manipulated via prompt hacking. We also present a comprehensive taxonomical ontology of the types of adversarial prompts.
arxiv情報
著者 | Sander Schulhoff,Jeremy Pinto,Anaum Khan,Louis-François Bouchard,Chenglei Si,Svetlina Anati,Valen Tagliabue,Anson Liu Kost,Christopher Carnahan,Jordan Boyd-Graber |
発行日 | 2023-11-30 23:15:04+00:00 |
arxivサイト | arxiv_id(pdf) |