要約
言語モデルにおける概念消去は、従来、包括的な評価の枠組みを欠いていたため、消去手法の有効性の評価が不完全であった。我々は、3つの重要な基準、すなわち、イノセンス(完全な知識除去)、シームレス(条件付きの流暢な生成の維持)、特異性(無関係なタスク性能の維持)を中心とした評価パラダイムを提案する。この評価基準は、3つの次元すべてに対応するように設計された新しい手法である言語記憶の消去(ELM)の開発の動機付けとなる。ELMは、消去された概念に対する出力分布を変化させる一方で、消去された概念に対するプロンプト時の流暢さを含むモデル全体の能力を維持するために、ターゲットとなる低ランクの更新を用いる。ELMの有効性をバイオセキュリティ、サイバーセキュリティ、文学分野の消去タスクで実証する。比較分析により、ELMは、消去されたトピックの評価におけるランダムに近いスコア、生成の流暢さ、無関係なベンチマークにおける精度の維持、敵対的攻撃に対する頑健性など、提案した指標において優れた性能を達成することが示された。我々のコード、データ、学習済みモデルは、https://elm.baulab.info。
要約(オリジナル)
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM’s efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info
arxiv情報
著者 | Rohit Gandikota,Sheridan Feucht,Samuel Marks,David Bau |
発行日 | 2024-10-03 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |