Position: LLM Unlearning Benchmarks are Weak Measures of Progress

要約

未学習の方法には、敏感な情報または有害な情報を削除することにより、大規模な言語モデル(LLM)のプライバシーと安全性を改善する可能性があります。
LLMの学習研究コミュニティは、そのような方法の有効性を評価するために、ますます経験的なベンチマークになっています。
この論文では、既存のベンチマークが、候補者の学習方法の有効性に関する過度に楽観的で潜在的に誤解を招く見解を提供することがわかります。
多くの人気のあるベンチマークにシンプルで良性の変更を導入することにより、おそらく未記録の情報がアクセス可能である場合、または未学習プロセスが元のベンチマークで示されたよりもはるかに程度までモデルのパフォーマンスを保持した情報のパフォーマンスを低下させた場合を公開します。
既存のベンチマークは、忘却と保持情報の間にゆるい依存関係を導入する変更に対して特に脆弱であることを特定します。
さらに、既存のベンチマークでのターゲットを解除することのあいまいさが、指定されたテストクエリに過度に依存するメソッドの設計に簡単につながる可能性があることを示します。
私たちの調査結果に基づいて、ベンチマークの結果を信頼できる進歩の尺度として解釈する際には、コミュニティに慎重であることを促し、将来のLLMの学習研究を導くためのいくつかの推奨事項を提供します。

要約(オリジナル)

Unlearning methods have the potential to improve the privacy and safety of large language models (LLMs) by removing sensitive or harmful information post hoc. The LLM unlearning research community has increasingly turned toward empirical benchmarks to assess the effectiveness of such methods. In this paper, we find that existing benchmarks provide an overly optimistic and potentially misleading view on the effectiveness of candidate unlearning methods. By introducing simple, benign modifications to a number of popular benchmarks, we expose instances where supposedly unlearned information remains accessible, or where the unlearning process has degraded the model’s performance on retained information to a much greater extent than indicated by the original benchmark. We identify that existing benchmarks are particularly vulnerable to modifications that introduce even loose dependencies between the forget and retain information. Further, we show that ambiguity in unlearning targets in existing benchmarks can easily lead to the design of methods that overfit to the given test queries. Based on our findings, we urge the community to be cautious when interpreting benchmark results as reliable measures of progress, and we provide several recommendations to guide future LLM unlearning research.

arxiv情報

著者 Pratiksha Thaker,Shengyuan Hu,Neil Kale,Yash Maurya,Zhiwei Steven Wu,Virginia Smith
発行日 2025-04-08 17:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク