要約
ブラックボックス微調整は、最先端の言語モデルをユーザーのニーズに適応させるための新しいインターフェイスです。
ただし、このようなアクセスにより、悪意のある攻撃者がモデルの安全性を損なう可能性もあります。
ファインチューニング インターフェイスを防御するという課題を実証するために、検出を回避しながらファインチューニングによってモデルの安全性を侵害する方法である、秘密の悪意のあるファインチューニングを紹介します。
私たちの方法では、個々のデータポイントがすべて無害であるように見える悪意のあるデータセットを構築しますが、データセットの微調整により、エンコードされた有害なリクエストにエンコードされた有害なレスポンスで応答するようにモデルが学習されます。
GPT-4 に適用された私たちの手法は、99% の確率で有害な命令に作用し、データセット検査、安全性評価、入出力分類器などの防御メカニズムによる検出を回避する微調整されたモデルを生成します。
私たちの調査結果は、ブラックボックスの微調整アクセスが高度な攻撃者に対して安全であるかどうかに疑問を投げかけています。
要約(オリジナル)
Black-box finetuning is an emerging interface for adapting state-of-the-art language models to user needs. However, such access may also let malicious actors undermine model safety. To demonstrate the challenge of defending finetuning interfaces, we introduce covert malicious finetuning, a method to compromise model safety via finetuning while evading detection. Our method constructs a malicious dataset where every individual datapoint appears innocuous, but finetuning on the dataset teaches the model to respond to encoded harmful requests with encoded harmful responses. Applied to GPT-4, our method produces a finetuned model that acts on harmful instructions 99% of the time and avoids detection by defense mechanisms such as dataset inspection, safety evaluations, and input/output classifiers. Our findings question whether black-box finetuning access can be secured against sophisticated adversaries.
arxiv情報
著者 | Danny Halawi,Alexander Wei,Eric Wallace,Tony T. Wang,Nika Haghtalab,Jacob Steinhardt |
発行日 | 2024-06-28 17:05:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google