要約
大規模な言語モデルは世界の知識を記憶する際に優れた能力を示しますが、これが個人情報、有毒または機密知識、著作権で保護されたコンテンツの記憶に関する懸念につながります。
大量の事実知識を忘れることに焦点を当てた、大規模知識ウォッシングの問題を紹介します。
従来のアンラーニング手法は通常、逆損失を定義し、バックプロパゲーションを介してモデルを更新します。これにより、モデルの流暢性や推論能力に影響を与えたり、逆損失を使用した広範なトレーニングによりモデルが破壊されたりする可能性があります。
既存の研究では、下流タスクの認識を必要とするモデルの機能の喪失を防ぐために、下流タスクからの追加データが導入されています。
学習を忘れることと既存の能力を維持することのトレードオフを制御することも困難です。
この目的を達成するために、モデル編集手法に触発され、知識と推論が分解可能であるという仮説に基づいて、デコーダー専用の大規模言語モデルの MLP 層を更新して知識ウォッシングを実行する LAW (Large Scale Washing) を提案します。
特定の MLP レイヤーの重みを更新するために学習すべき知識を使用して、新しい目標を導き出します。
実験結果は、推論能力を維持しながら対象の知識を忘れるというLAWの有効性を実証しています。
コードは https://github.com/wangyu-ustc/LargeScaleWashing でオープンソース化されます。
要約(オリジナル)
Large language models show impressive abilities in memorizing world knowledge, which leads to concerns regarding memorization of private information, toxic or sensitive knowledge, and copyrighted content. We introduce the problem of Large Scale Knowledge Washing, focusing on unlearning an extensive amount of factual knowledge. Previous unlearning methods usually define the reverse loss and update the model via backpropagation, which may affect the model’s fluency and reasoning ability or even destroy the model due to extensive training with the reverse loss. Existing works introduce additional data from downstream tasks to prevent the model from losing capabilities, which requires downstream task awareness. Controlling the tradeoff of unlearning and maintaining existing capabilities is also challenging. To this end, we propose LAW (Large Scale Washing) to update the MLP layers in decoder-only large language models to perform knowledge washing, as inspired by model editing methods and based on the hypothesis that knowledge and reasoning are disentanglable. We derive a new objective with the knowledge to be unlearned to update the weights of certain MLP layers. Experimental results demonstrate the effectiveness of LAW in forgetting target knowledge while maintaining reasoning ability. The code will be open-sourced at https://github.com/wangyu-ustc/LargeScaleWashing.
arxiv情報
著者 | Yu Wang,Ruihan Wu,Zexue He,Xiusi Chen,Julian McAuley |
発行日 | 2024-05-28 15:48:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google