Selective Forgetting: Advancing Machine Unlearning Techniques and Evaluation in Language Models

要約

この研究の目的は、個人データや機密データを誤って保持するニューラル モデルに関連する懸念に対処することに焦点を当てた急成長分野であるマシンアンラーニング (MU) を調査することです。
ここでは、言語モデル内で正確かつ選択的な忘却を実現するための新しいアプローチが導入されています。
まったく逆のトレーニング目標を採用する以前の方法論とは異なり、このアプローチは、特に生成タスクにおける言語モデルのパフォーマンスへの悪影響を軽減することを目的としています。
さらに、機密情報抽出の可能性 (S-EL) と機密情報メモリ精度 (S-MA) という 2 つの革新的な評価指標が提案されており、機密情報の削除の有効性を測定するように設計されています。
忘却のフレームワークを強化するために、オンラインとオフラインの両方の戦略を含む、機密スコープに注釈を付けるための効果的な方法が紹介されています。
オンライン選択メカニズムは言語確率スコアを活用して計算効率を確保しますが、オフライン アノテーションには大規模言語モデル (LLM) に基づく堅牢な 2 段階のプロセスが必要です。

要約(オリジナル)

The aim of this study is to investigate Machine Unlearning (MU), a burgeoning field focused on addressing concerns related to neural models inadvertently retaining personal or sensitive data. Here, a novel approach is introduced to achieve precise and selective forgetting within language models. Unlike previous methodologies that adopt completely opposing training objectives, this approach aims to mitigate adverse effects on language model performance, particularly in generation tasks. Furthermore, two innovative evaluation metrics are proposed: Sensitive Information Extraction Likelihood (S-EL) and Sensitive Information Memory Accuracy (S-MA), designed to gauge the effectiveness of sensitive information elimination. To reinforce the forgetting framework, an effective method for annotating sensitive scopes is presented, involving both online and offline strategies. The online selection mechanism leverages language probability scores to ensure computational efficiency, while the offline annotation entails a robust two-stage process based on Large Language Models (LLMs).

arxiv情報

著者 Lingzhi Wang,Xingshan Zeng,Jinsong Guo,Kam-Fai Wong,Georg Gottlob
発行日 2024-02-08 16:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク