Detoxifying Large Language Models via Knowledge Editing

要約

この論文では、知識編集技術を使用して大規模言語モデル (LLM) を無毒化する方法について調査します。
私たちは、さまざまな強力な攻撃プロンプトを備えた 9 つの安全でないカテゴリをカバーし、体系的な評価のための包括的なメトリクスを備えたベンチマーク SafeEdit を構築します。
私たちは、いくつかの知識編集アプローチを使用した実験を行っており、知識編集には、一般的なパフォーマンスへの影響を限定的にしながら、LLM を効率的に無毒化できる可能性があることが示されています。
次に、わずか 1 回の調整ステップで LLM の毒性を軽減する、術中神経モニタリングによる解毒 (DINM) と呼ばれる、シンプルかつ効果的なベースラインを提案します。
さらに、さまざまな解毒アプローチの内部メカニズムの詳細な分析を提供し、SFTやDPOなどの以前の方法は単に有毒パラメーターの活性化を抑制するだけである一方、DINMは有毒パラメーターの毒性をある程度緩和し、永続的なものにすることを実証しています。
調整。
私たちは、これらの洞察が、解毒アプローチとLLMの基礎となる知識メカニズムを開発する将来の研究に光を当てることができることを願っています。
コードとベンチマークは https://github.com/zjunlp/EasyEdit で入手できます。

要約(オリジナル)

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments with several knowledge editing approaches, indicating that knowledge editing has the potential to efficiently detoxify LLMs with limited impact on general performance. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxify approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.

arxiv情報

著者 Mengru Wang,Ningyu Zhang,Ziwen Xu,Zekun Xi,Shumin Deng,Yunzhi Yao,Qishen Zhang,Linyi Yang,Jindong Wang,Huajun Chen
発行日 2024-03-28 15:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG パーマリンク