要約
大規模言語モデル (LLM) が有害なプロンプトに対して安全でない応答を生成することは、アプリケーションにおける重大な問題です。
この安全性の懸念に対処することを目的としたさまざまな取り組みが行われていますが、これまでのアプローチでは、多くの人による大量のデータ収集が必要になったり、修正データを生成するために別の LLM を使用するという信頼性の低いオプションに依存したりすることがよくありました。
この論文では、この問題を取り上げ、大量の高品質の人間データを必要とするという制限を克服することを目指しています。
私たちの方法では、有害なプロンプトに対する安全でない応答の少数のセットのみが必要であり、安全でない LLM 自体から簡単に取得できます。
負の Earth Mover Distance (EMD) 損失と組み合わせたセマンティック コストを採用することで、LLM が安全でない応答を生成しないように誘導します。
さらに、より効率的な最適化を可能にする、EMD 損失の新しい下限を提案します。
私たちの結果は、ベースラインと比較して優れたパフォーマンスとデータ効率を示しており、対照的なデータを使用した場合の過剰な調整の微妙な影響と言語機能の潜在的な低下をさらに調査します。
要約(オリジナル)
Large Language Models (LLMs) generating unsafe responses to toxic prompts is a significant issue in their applications. While various efforts aim to address this safety concern, previous approaches often demand substantial human data collection or rely on the less dependable option of using another LLM to generate corrective data. In this paper, we aim to take this problem and overcome limitations of requiring significant high-quality human data. Our method requires only a small set of unsafe responses to toxic prompts, easily obtained from the unsafe LLM itself. By employing a semantic cost combined with a negative Earth Mover Distance (EMD) loss, we guide the LLM away from generating unsafe responses. Additionally, we propose a novel lower bound for EMD loss, enabling more efficient optimization. Our results demonstrate superior performance and data efficiency compared to baselines, and we further examine the nuanced effects of over-alignment and potential degradation of language capabilities when using contrastive data.
arxiv情報
| 著者 | Yuxiao Lu,Arunesh Sinha,Pradeep Varakantham |
| 発行日 | 2024-12-11 12:35:25+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google