要約
デジタル忘却の目的は、望ましくない知識や動作を含むモデルが与えられた場合に、検出された問題が存在しない新しいモデルを取得することです。
忘れる動機には、プライバシーの保護、著作権の保護、偏見や差別の排除、有害なコンテンツの生成の防止などが含まれます。
効果的なデジタル忘却は、効果的である必要があり (新しいモデルが望ましくない知識/動作をどの程度忘れているかを意味します)、望ましいタスクに関して元のモデルのパフォーマンスを維持し、スケーラブルである必要があります (特に、忘却は、元のモデルから再トレーニングするよりも効率的である必要があります)。
保持するタスク/データのみをスクラッチします)。
この調査は、大規模言語モデル (LLM) における忘却に焦点を当てています。
まず、LLM のコンポーネント、LLM の種類、通常のトレーニング パイプラインなど、LLM の背景について説明します。
次に、デジタル忘却の動機、種類、望ましい特性について説明します。
第三に、LLM におけるデジタル忘却へのアプローチを紹介します。その中で、アンラーニング方法論が最先端として際立っています。
第 4 に、LLM の機械学習解除手法の詳細な分類を提供し、現在のアプローチを調査および比較します。
5 番目に、忘却、保持、実行時間の評価に使用されるデータセット、モデル、メトリクスについて詳しく説明します。
6番目に、この地域における課題について議論します。
最後に、いくつかの結論を述べます。
要約(オリジナル)
The objective of digital forgetting is, given a model with undesirable knowledge or behavior, obtain a new model where the detected issues are no longer present. The motivations for forgetting include privacy protection, copyright protection, elimination of biases and discrimination, and prevention of harmful content generation. Effective digital forgetting has to be effective (meaning how well the new model has forgotten the undesired knowledge/behavior), retain the performance of the original model on the desirable tasks, and be scalable (in particular forgetting has to be more efficient than retraining from scratch on just the tasks/data to be retained). This survey focuses on forgetting in large language models (LLMs). We first provide background on LLMs, including their components, the types of LLMs, and their usual training pipeline. Second, we describe the motivations, types, and desired properties of digital forgetting. Third, we introduce the approaches to digital forgetting in LLMs, among which unlearning methodologies stand out as the state of the art. Fourth, we provide a detailed taxonomy of machine unlearning methods for LLMs, and we survey and compare current approaches. Fifth, we detail datasets, models and metrics used for the evaluation of forgetting, retaining and runtime. Sixth, we discuss challenges in the area. Finally, we provide some concluding remarks.
arxiv情報
著者 | Alberto Blanco-Justicia,Najeeb Jebreel,Benet Manzanares,David Sánchez,Josep Domingo-Ferrer,Guillem Collell,Kuan Eeik Tan |
発行日 | 2024-04-02 16:01:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google