Removing RLHF Protections in GPT-4 via Fine-Tuning

要約

大規模言語モデル (LLM) の機能が向上するにつれて、二重使用の可能性も高まります。
有害な出力を削減するために、LLM の生産者とベンダーはヒューマン フィードバックによる強化学習 (RLHF) を使用しています。
それと並行して、LLM ベンダーは最も強力なモデルの微調整を可能にすることが増えています。
ただし、並行作業により、微調整により RLHF 保護が解除される可能性があることがわかっています。
現在利用可能な最も強力なモデル (GPT-4) は、微調整攻撃の影響を受けにくいと予想できます。
この研究では、その逆を示します。微調整により、攻撃者はわずか 340 の例と 95% の成功率で RLHF 保護を解除できるようになります。
これらのトレーニング サンプルは、弱いモデルを使用して自動的に生成できます。
さらに、RLHF 保護を削除しても、打ち切りなしの出力の有用性が低下しないことを示し、トレーニング データの生成に弱いモデルを使用しているにもかかわらず、微調整戦略が有用性を低下させないという証拠を提供します。
私たちの結果は、LLM の保護についてさらなる研究の必要性を示しています。

要約(オリジナル)

As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback (RLHF). In tandem, LLM vendors have been increasingly enabling fine-tuning of their most powerful models. However, concurrent work has shown that fine-tuning can remove RLHF protections. We may expect that the most powerful models currently available (GPT-4) are less susceptible to fine-tuning attacks. In this work, we show the contrary: fine-tuning allows attackers to remove RLHF protections with as few as 340 examples and a 95% success rate. These training examples can be automatically generated with weaker models. We further show that removing RLHF protections does not decrease usefulness on non-censored outputs, providing evidence that our fine-tuning strategy does not decrease usefulness despite using weaker models to generate training data. Our results show the need for further research on protections on LLMs.

arxiv情報

著者 Qiusi Zhan,Richard Fang,Rohan Bindu,Akul Gupta,Tatsunori Hashimoto,Daniel Kang
発行日 2023-11-09 17:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク