要約
言語モデル攻撃は通常、モデルの重みへの完全なホワイトボックス アクセス、またはテキスト生成 API に限定されたブラックボックス アクセスの 2 つの極端な脅威モデルのいずれかを想定しています。
ただし、実際の API は、多くの場合、単なるテキスト生成よりも柔軟です。これらの API は、新たな脅威ベクトルにつながる「グレーボックス」アクセスを公開します。
これを調査するために、GPT-4 API で公開されている 3 つの新しい機能 (微調整、関数呼び出し、ナレッジ検索) をレッドチームにまとめました。
わずか 15 個の有害な例または 100 個の良性の例に基づいてモデルを微調整すると、GPT-4 から核となる保護手段が削除され、さまざまな有害な出力が可能になることがわかりました。
さらに、GPT-4 アシスタントは関数呼び出しスキーマを容易に漏洩し、任意の関数呼び出しを実行させることができることがわかりました。
最後に、検索ドキュメントに命令を挿入することで知識検索をハイジャックできることがわかりました。
これらの脆弱性は、API によって公開される機能への追加が新たな脆弱性を生み出す可能性があることを浮き彫りにしています。
要約(オリジナル)
Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose “gray-box” access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
arxiv情報
著者 | Kellin Pelrine,Mohammad Taufeeque,Michał Zając,Euan McLean,Adam Gleave |
発行日 | 2023-12-21 21:22:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google