SHA256 at SemEval-2025 Task 4: Selective Amnesia — Constrained Unlearning for Large Language Models via Knowledge Isolation

要約

大規模な言語モデル(LLM)は、トレーニング中に機密情報を頻繁に記憶し、公開されたモデルを展開する際にリスクをもたらします。
現在のマシンの未学習方法は、全体的なモデル機能を分解することなく、特定のデータ関連を選択的に削除するのに苦労しています。
このホワイトペーパーでは、Semeval-2025タスク4のターゲットを絞った未学生のタスク4のソリューションを提示します。これは、因果調停分析と層固有の最適化を組み合わせた2段階の方法論を導入します。
OLMOアーキテクチャ(1Bおよび7Bパラメーター)での体系的な因果追跡実験を通じて、MLPモジュール内のサブジェクトアトリビングアソシエーションを保存する際の最初の数少ない変圧器層(層0〜5)の重要な役割を特定します。
この洞察に基づいて、上層層をフリーズする制約された最適化アプローチを開発し、新しい関節損失関数を適用して、出力トークンクロスエントロピーペナルティを介して忘却セット損失を最大化し、適応型正規化を介した保持セット偏差を最小化します。
私たちの方法は、1Bモデルトラックで2位を達成し、ベースラインMMLUの精度の88%を維持しながら強力なタスクパフォ​​ーマンスを示しています。
これらの結果は、LLMSでの効率的で正確な学習のための有望なパラダイムとして因果関係のある層の最適化を確立し、AIシステムのデータプライバシーの懸念に対処する際に大きな前進を提供します。

要約(オリジナル)

Large language models (LLMs) frequently memorize sensitive information during training, posing risks when deploying publicly accessible models. Current machine unlearning methods struggle to selectively remove specific data associations without degrading overall model capabilities. This paper presents our solution to SemEval-2025 Task 4 on targeted unlearning, which introduces a two-stage methodology that combines causal mediation analysis with layer-specific optimization. Through systematic causal tracing experiments on OLMo architectures (1B and 7B parameters), we identify the critical role of the first few transformer layers (layers 0-5) in storing subject-attribute associations within MLP modules. Building on this insight, we develop a constrained optimization approach that freezes upper layers while applying a novel joint loss function to lower layers-simultaneously maximizing forget set loss via output token cross-entropy penalties and minimizing retain set deviation through adaptive regularization. Our method achieves 2nd place in the 1B model track, demonstrating strong task performance while maintaining 88% of baseline MMLU accuracy. These results establish causal-informed layer optimization as a promising paradigm for efficient, precise unlearning in LLMs, offering a significant step forward in addressing data privacy concerns in AI systems.

arxiv情報

著者 Saransh Agrawal,Kuan-Hao Huang
発行日 2025-04-17 15:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク