Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation

要約

大規模言語モデル (LLM) はさまざまなアプリケーションで広く使用されていますが、虚偽性と有害性に関連する問題があることが知られています。
パラメーター効率の良いモジュール (PEM) は、モデルに新しいスキルを装備する上で有効であることが実証されていますが、欠陥の解消に PEM を活用することについては、まだ研究が進んでいません。
この研究では、「エキスパート」PEM と「アンチエキスパート」PEM の統合を通じて LLM の真実性と無毒化を強化するための、PEM 操作アプローチ、すなわち Extraction-before-Subtraction (Ext-Sub) を提案します。

注目すべきことに、アンチエキスパート PEM であっても、言語モデリングと論理的な物語能力を必要とする捏造コンテンツの生成に熟練しているため、貴重な能力を備えています。
単にパラメータを否定するのではなく、私たちのアプローチには、一般的な機能を維持しながら、アンチエキスパート PEM 内の欠陥機能のみを抽出して削除することが含まれます。
真実性と無毒化の観点から私たちのアプローチの有効性を評価するために、私たちは言語モデリングや数学的推論などの追加能力を含む、LLM に関する広範な実験を実施します。
私たちの経験的な結果は、私たちのアプローチがLLMの基本的な能力をほぼ維持しながら、真実性と解毒を効果的に改善することを示しています。

要約(オリジナル)

Large language models (LLMs) have been widely used in various applications but are known to suffer from issues related to untruthfulness and toxicity. While parameter-efficient modules (PEMs) have demonstrated their effectiveness in equipping models with new skills, leveraging PEMs for deficiency unlearning remains underexplored. In this work, we propose a PEMs operation approach, namely Extraction-before-Subtraction (Ext-Sub), to enhance the truthfulness and detoxification of LLMs through the integration of “expert” PEM and “anti-expert” PEM. Remarkably, even anti-expert PEM possess valuable capabilities due to their proficiency in generating fabricated content, which necessitates language modeling and logical narrative competence. Rather than merely negating the parameters, our approach involves extracting and eliminating solely the deficiency capability within anti-expert PEM while preserving the general capabilities. To evaluate the effectiveness of our approach in terms of truthfulness and detoxification, we conduct extensive experiments on LLMs, encompassing additional abilities such as language modeling and mathematical reasoning. Our empirical results demonstrate that our approach effectively improves truthfulness and detoxification, while largely preserving the fundamental abilities of LLMs.

arxiv情報

著者 Xinshuo Hu,Dongfang Li,Zihao Zheng,Zhenyu Liu,Baotian Hu,Min Zhang
発行日 2023-08-16 01:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク