要約
大規模な言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性に関する広範な懸念を提起しました。
オープンウェイトLLMは、既存の保護手段がモデルの重みを変更する改ざん攻撃に対する堅牢性を欠いているため、独自の課題を提示します。
たとえば、最近の作品は、微調整のいくつかのステップで拒否と学習の保護措置を些細なことに削除できることを実証しています。
これらの脆弱性は、オープンウェイトLLMの安全なリリースを可能にするための新しいアプローチを必要とします。
敵が何百もの微調整の後でも保護手段を削除することができないように、改ざん耐性保護ガードをオープンウェイトLLMに構築するための方法を開発します。
広範な評価と赤いチーム分析では、私たちの方法は、良性能力を維持しながら、改ざん抵抗を大幅に改善することがわかります。
私たちの結果は、改ざん耐性の進歩が可能であり、オープンウェイトLLMの安全とセキュリティを改善するための有望な新しい道を開くことを示しています。
要約(オリジナル)
Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after hundreds of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that progress on tamper-resistance is possible, opening up a promising new avenue to improve the safety and security of open-weight LLMs.
arxiv情報
著者 | Rishub Tamirisa,Bhrugu Bharathi,Long Phan,Andy Zhou,Alice Gatti,Tarun Suresh,Maxwell Lin,Justin Wang,Rowan Wang,Ron Arel,Andy Zou,Dawn Song,Bo Li,Dan Hendrycks,Mantas Mazeika |
発行日 | 2025-02-10 18:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google