LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

要約

AI 開発者は、AI システムの誤用を防ぐために安全調整手順を適用することがよくあります。
たとえば、Meta は、指導を細かく調整した大規模な言語モデルのコレクションである Llama 2-Chat をリリースする前に、広範なレッドチーム化と人間のフィードバックからの強化学習を組み込んだ安全トレーニングに多額の投資を行っていました。
ただし、攻撃者がモデルの重みにアクセスできる場合に、安全トレーニングがモデルの誤用をどの程度防ぐことができるかは依然として不明です。
私たちは、Llama 2-Chat の公開の重みを破壊的に微調整することにより、言語モデルにおける安全トレーニングの堅牢性を調査します。
効率的な微調整方法として低ランク適応 (LoRA) を採用しています。
モデルあたり 200 ドル未満の予算で、GPU を 1 つだけ使用することで、サイズ 7B、13B、および 70B の Llama 2-Chat モデルの安全トレーニングを取り消すことに成功しました。
具体的には、私たちの微調整技術により、モデルが有害な指示に従うことを拒否する割合が大幅に減少します。
当社の 70B Llama 2-Chat モデルでは、2 つの拒否ベンチマークで 1% 未満の拒否率を達成しています。
当社の微調整方法では一般的なパフォーマンスが維持されており、2 つのベンチマークにわたって微調整されたモデルと Llama 2-Chat を比較することで検証されています。
さらに、モデルによって生成される有害な出力の一部を紹介します。
現在のモデルによるリスクの範囲についてはかなりの不確実性がありますが、将来のモデルには、重要なインフラへのハッキング、危険な生物兵器の作成、または自律的に複製して新しい環境に適応する能力など、より危険な機能が搭載される可能性があります。

我々は、破壊的な微調整が実用的かつ効果的であることを示し、したがって、微調整によるリスクの評価は、モデルの重みをリリースするためのリスク評価の中核部分であるべきだと主張します。

要約(オリジナル)

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.

arxiv情報

著者 Simon Lermen,Charlie Rogers-Smith,Jeffrey Ladish
発行日 2023-10-31 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク