Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

要約

大規模な言語モデルをトレーニングして指示に従うようにすると、さまざまなタスクでパフォーマンスが向上し、一般に便利になります。
ただし、完全に役立つモデルは、最も悪意のある指示にも従い、有害なコンテンツを容易に生成します。
この論文では、命令チューニングにおいて無害性ではなく有用性のみを強調するモデルの安全性について懸念を提起します。
いくつかの人気のある命令調整モデルは非常に危険であることを示します。
さらに、LLaMA のようなモデルを微調整するときに、わずか 3% の安全例 (数百のデモンストレーション) を追加するだけで、安全性が大幅に向上する可能性があることを示します。
当社の安全調整により、標準ベンチマークで測定した場合にモデルの能力や有用性が大幅に低下することはありません。
ただし、過度の安全性の調整により、表面的には安全でないプロンプトに似ているモデルが完全に安全なプロンプトを拒否するなど、安全性が誇張されていることがわかります。
全体として、私たちの結果は、LLM を役立つようにトレーニングすることと、LLM を安全にするようにトレーニングすることのトレードオフを示しています。

要約(オリジナル)

Training large language models to follow instructions makes them perform better on a wide range of tasks and generally become more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not harmlessness, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) when fine-tuning a model like LLaMA can substantially improve its safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find exaggerated safety behaviours, where too much safety-tuning makes models refuse perfectly safe prompts if they superficially resemble unsafe ones. As a whole, our results illustrate trade-offs in training LLMs to be helpful and training them to be safe.

arxiv情報

著者 Federico Bianchi,Mirac Suzgun,Giuseppe Attanasio,Paul Röttger,Dan Jurafsky,Tatsunori Hashimoto,James Zou
発行日 2024-03-19 16:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク