Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models

要約

安全性の調整は、人間の好みに沿って大規模言語モデル (LLM) の動作を導き、推論時に有害な動作を制限するための鍵となりますが、最近の研究では、わずか数回の敵対的に設計されたトレーニングを微調整するだけで簡単に侵害される可能性があることが示されています。
例。
私たちは、LLM の安全状況をナビゲートすることで、LLM を微調整する際のリスクを測定することを目指しています。
私たちは、人気のあるオープンソース LLM のモデル パラメーター空間で普遍的に観察される、「安全盆地」と呼ばれる新しい現象を発見しました。モデルの重みをランダムに摂動させることで、ローカル近傍で元の位置合わせされたモデルの安全レベルが維持されます。
私たちの発見は、LLM の安全状況を調査することによって LLM の微調整における安全性を測定する、新しい VISAGE 安全性指標を提案するきっかけを与えてくれました。
位置合わせされたモデルの安全状況を視覚化すると、微調整によってモデルが安全領域から引き離され、どのように安全性が損なわれるかを理解できるようになります。
LLM の安全状況では、モデルの保護におけるシステム プロンプトの重要な役割と、そのような保護が安全領域内の混乱したバリアントに移行することも強調されています。
当社の安全状況調査から得られたこれらの観察は、LLM 安全コミュニティに関する将来の作業に新たな洞察を提供します。

要約(オリジナル)

Safety alignment is the key to guiding the behaviors of large language models (LLMs) that are in line with human preferences and restrict harmful behaviors at inference time, but recent studies show that it can be easily compromised by finetuning with only a few adversarially designed training examples. We aim to measure the risks in finetuning LLMs through navigating the LLM safety landscape. We discover a new phenomenon observed universally in the model parameter space of popular open-source LLMs, termed as ‘safety basin’: randomly perturbing model weights maintains the safety level of the original aligned model in its local neighborhood. Our discovery inspires us to propose the new VISAGE safety metric that measures the safety in LLM finetuning by probing its safety landscape. Visualizing the safety landscape of the aligned model enables us to understand how finetuning compromises safety by dragging the model away from the safety basin. LLM safety landscape also highlights the system prompt’s critical role in protecting a model, and that such protection transfers to its perturbed variants within the safety basin. These observations from our safety landscape research provide new insights for future work on LLM safety community.

arxiv情報

著者 ShengYun Peng,Pin-Yu Chen,Matthew Hull,Duen Horng Chau
発行日 2024-05-28 04:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク