要約
大規模言語モデル(LLM)の急速な進歩により、悪意のある利用の可能性に関する懸念が広がっている。オープンウエイトのLLMは、モデルのウエイトを変更する改ざん攻撃に対して既存のセーフガードが頑健性に欠けるため、ユニークな課題となっている。例えば、最近の研究では、学習拒否や学習解除のセーフガードは、数ステップの微調整で簡単に解除できることが実証されている。これらの脆弱性から、オープンウェイトLLMの安全なリリースを可能にする新しいアプローチが必要である。我々はTARと呼ばれる手法を開発し、オープンウエイトLLMに耐タンパー性のあるセーフガードを組み込むことで、敵が何千ステップもの微調整を行ってもセーフガードを取り除くことができないようにする。広範な評価とレッドチームによる分析により、我々の方法は、良性の機能を維持しながら、耐タンパー性を大幅に向上させることを発見した。我々の結果は、改ざん耐性が扱いやすい問題であることを示し、オープンウエイトLLMの安全性とセキュリティを向上させる有望な新しい道を開くものである。
要約(オリジナル)
Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs.
arxiv情報
著者 | Rishub Tamirisa,Bhrugu Bharathi,Long Phan,Andy Zhou,Alice Gatti,Tarun Suresh,Maxwell Lin,Justin Wang,Rowan Wang,Ron Arel,Andy Zou,Dawn Song,Bo Li,Dan Hendrycks,Mantas Mazeika |
発行日 | 2024-08-01 17:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |