Towards Safer Large Language Models through Machine Unlearning

要約

大規模言語モデル (LLM) の急速な進歩により、その広範な事前トレーニング知識と並外れた一般化可能性により、さまざまなドメインにわたってその大きな可能性が実証されました。
ただし、LLM は、問題のあるプロンプトに直面したときに、有害なコンテンツを生成するという課題に直面することがよくあります。
この問題に対処するために、既存の研究では、LLM が有害な出力を生成するのを防ぐために、勾配上昇ベースのアプローチを実装することが試みられました。
これらの方法は効果的ですが、通常のプロンプトに応答する際のモデル ユーティリティに影響を与えることがよくあります。
このギャップに対処するために、通常のプロンプトでの有用性を維持しながら有害な知識を排除するように設計された、LLM 用の新しい非学習フレームワークである選択的知識否定非学習 (SKU) を導入します。
具体的には、SKU は有害な知識の獲得段階と知識の否定段階の 2 つの段階で構成されます。
最初の段階では、モデル内の有害な知識を特定して取得することを目的としていますが、2 番目の段階では、この知識を削除することに専念します。
SKU は、モデル パラメーター内の有害な知識を選択的に分離して削除し、通常のプロンプトでモデルのパフォーマンスが堅牢な状態を維持できるようにします。
さまざまな LLM アーキテクチャにわたって実施された実験では、SKU が有害な情報の削除とユーティリティの維持の間の適切なバランス ポイントを特定していることが実証されました。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has demonstrated their vast potential across various domains, attributed to their extensive pretraining knowledge and exceptional generalizability. However, LLMs often encounter challenges in generating harmful content when faced with problematic prompts. To address this problem, existing work attempted to implement a gradient ascent based approach to prevent LLMs from producing harmful output. While these methods can be effective, they frequently impact the model utility in responding to normal prompts. To address this gap, we introduce Selective Knowledge negation Unlearning (SKU), a novel unlearning framework for LLMs, designed to eliminate harmful knowledge while preserving utility on normal prompts. Specifically, SKU is consisted of two stages: harmful knowledge acquisition stage and knowledge negation stage. The first stage aims to identify and acquire harmful knowledge within the model, whereas the second is dedicated to remove this knowledge. SKU selectively isolates and removes harmful knowledge in model parameters, ensuring the model’s performance remains robust on normal prompts. Our experiments conducted across various LLM architectures demonstrate that SKU identifies a good balance point between removing harmful information and preserving utility.

arxiv情報

著者 Zheyuan Liu,Guangyao Dou,Zhaoxuan Tan,Yijun Tian,Meng Jiang
発行日 2024-02-15 16:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク