要約
OpenAI の GPT シリーズ、Anthropic の Claude、Meta の LLaMa などの大規模言語モデル (LLM) は、テキスト生成において顕著な機能を示しています。
ただし、有毒なプロンプトに対するそれらの脆弱性は、重大なセキュリティ上の課題を引き起こします。
このペーパーでは、これらのリスクを軽減するための、教師あり微調整 (SFT) やヒューマン フィードバックからの強化学習 (RLHF) などの調整技術を調査します。
私たちは 9 つの LLM にわたる拒否パターンに関する実証研究を実施し、Claude3 などの均一な拒否パターンを持つモデルがより高いセキュリティを示すことを明らかにしました。
これらの発見に基づいて、LLM のセキュリティを強化するための自己蒸留およびクロスモデル蒸留方法を提案します。
私たちの結果は、これらの方法が拒否率を大幅に改善し、安全でない内容を減らし、クロスモデル蒸留により Claude3 の 94.51% に近い拒否率を達成することを示しています。
これらの発見は、毒性プロンプトから LLM を保護する際の蒸留ベースの調整の可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) like OpenAI’s GPT series, Anthropic’s Claude, and Meta’s LLaMa have shown remarkable capabilities in text generation. However, their susceptibility to toxic prompts presents significant security challenges. This paper investigates alignment techniques, including Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), to mitigate these risks. We conduct an empirical study on refusal patterns across nine LLMs, revealing that models with uniform refusal patterns, such as Claude3, exhibit higher security. Based on these findings, we propose self-distilling and cross-model distilling methods to enhance LLM security. Our results show that these methods significantly improve refusal rates and reduce unsafe content, with cross-model distilling achieving refusal rates close to Claude3’s 94.51%. These findings underscore the potential of distillation-based alignment in securing LLMs against toxic prompts.
arxiv情報
著者 | Jie Li,Yi Liu,Chongyang Liu,Xiaoning Ren,Ling Shi,Weisong Sun,Yinxing Xue |
発行日 | 2024-12-02 05:22:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google