要約
大規模言語モデル (LLM) の現在のセーフガード メカニズムは実際にジェイルブレイク攻撃の影響を受けやすく、本質的に脆弱です。
下流のタスクのために一見無害なデータを微調整するプロセスでも、安全性が危険にさらされる可能性があります。
考えられる解決策の 1 つは、下流の微調整に続いて安全性の微調整を実行することです。
ただし、安全性の微調整中に致命的な忘れが生じるリスクがあり、LLM は安全対策を取り戻しても、下流の微調整中に取得したタスク固有の知識を失う可能性があります。
この論文では、部分空間指向モデル融合 (SOMF) による安全性再調整フレームワークを紹介します。これは、最初に調整されたモデルと現在の微調整されたモデルの安全保護機能を再調整されたモデルに結合することを目的としています。
私たちのアプローチは、各微調整モデルの重みからすべてのタスク ベクトルを解き放つことから始まります。
次に、部分空間マスキング技術によってこれらのベクトル内の安全関連領域を特定します。
最後に、特定された安全部分空間に基づいて、最初に安全に位置合わせされた LLM とすべてのタスク ベクトルの融合を探索します。
当社の安全再調整フレームワークが、単一の微調整されたモデルだけでなく、それらの融合中の複数のモデルの安全要件も満たしていることを検証します。
私たちの調査結果は、SOMF が、中国語、英語、ヒンディー語での指示に従うことや、コードと数学の問題解決能力を含む、下流のタスクのパフォーマンスを著しく損なうことなく安全性を維持していることを裏付けています。
要約(オリジナル)
The current safeguard mechanisms for large language models (LLMs) are indeed susceptible to jailbreak attacks, making them inherently fragile. Even the process of fine-tuning on apparently benign data for downstream tasks can jeopardize safety. One potential solution is to conduct safety fine-tuning subsequent to downstream fine-tuning. However, there’s a risk of catastrophic forgetting during safety fine-tuning, where LLMs may regain safety measures but lose the task-specific knowledge acquired during downstream fine-tuning. In this paper, we introduce a safety realignment framework through subspace-oriented model fusion (SOMF), aiming to combine the safeguard capabilities of initially aligned model and the current fine-tuned model into a realigned model. Our approach begins by disentangling all task vectors from the weights of each fine-tuned model. We then identify safety-related regions within these vectors by subspace masking techniques. Finally, we explore the fusion of the initial safely aligned LLM with all task vectors based on the identified safety subspace. We validate that our safety realignment framework satisfies the safety requirements of a single fine-tuned model as well as multiple models during their fusion. Our findings confirm that SOMF preserves safety without notably compromising performance on downstream tasks, including instruction following in Chinese, English, and Hindi, as well as problem-solving capabilities in Code and Math.
arxiv情報
著者 | Xin Yi,Shunfan Zheng,Linlin Wang,Xiaoling Wang,Liang He |
発行日 | 2024-05-15 03:04:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google