要約
大規模な言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示しており、強力なタスクの理解と問題解決能力を紹介しています。
LLMをAIアシスタントとして展開するには、これらのモデルが非毒性や脱獄の試みに対する回復力など、望ましい行動特性を示すことが重要です。
解毒または脱獄の防止のための現在のアプローチには、通常、監視された微調整(SFT)または人間のフィードバック(RLHF)からの強化学習が含まれます。
さらに、SFTおよびRLHFを介して変更されたモデルは、前提条件のモデルから逸脱し、基礎LLM機能の劣化につながる可能性があります。
この論文では、驚くべきことに、パラメーターの小さなサブセットを直接編集することで、推論レベルの計算リソースのみを使用して、解毒やパブラークに対する抵抗など、LLMの特定の動作を効果的に変調できることがわかります。
実験は、解毒タスクでは、私たちのアプローチが、RealtoxicityPromptsデータセットの毒性の最大90.0%、毒素の49.2%の削減を達成し、常識、質問の回答、数学などの分野でLLMの一般的な能力を維持することを示しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated great potential as generalist assistants, showcasing powerful task understanding and problem-solving capabilities. To deploy LLMs as AI assistants, it is crucial that these models exhibit desirable behavioral traits, such as non-toxicity and resilience against jailbreak attempts. Current approaches for detoxification or preventing jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), which requires finetuning billions of parameters through gradient descent with substantial computational cost. Furthermore, models modified through SFT and RLHF may deviate from the pretrained models, potentially leading to a degradation in foundational LLM capabilities. In this paper, we observe that surprisingly, directly editing a small subset of parameters can effectively modulate specific behaviors of LLMs, such as detoxification and resistance to jailbreaking, with only inference-level computational resources. Experiments demonstrate that in the detoxification task, our approach achieves reductions of up to 90.0% in toxicity on the RealToxicityPrompts dataset and 49.2% on ToxiGen, while maintaining the LLM’s general capabilities in areas such as common sense, question answering, and mathematics
arxiv情報
著者 | Huanqian Wang,Yang Yue,Rui Lu,Jingxin Shi,Andrew Zhao,Shenzhi Wang,Shiji Song,Gao Huang |
発行日 | 2025-02-11 15:39:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google