要約
機械アンラーニングは、トレーニングされたモデルに対する特定のトレーニング ポイントの影響を効率的に除去する研究であり、忘れられる権利などのプライバシー規制を遵守する必要性により、最近ますます注目を集めています。
非学習は、LLM が提起する著作権問題を考慮すると特に重要ですが、非常に大規模なモデルでは正確な非学習を達成することは計算上不可能です。
この目的を達成するために、最近の研究では、モデルを再トレーニングせずにトレーニング データの削除を近似するいくつかのアルゴリズムが提案されています。
これらのアルゴリズムは、モデル パラメーターを更新するためにモデル パラメーターへのアクセスに大きく依存していますが、この前提は、計算上の制約や、LLM が API 経由でアクセスされる場合に実際には当てはまらない可能性があります。
この研究では、「インコンテキストアンラーニング」と呼ばれる、LLM の新しいクラスのアンラーニング メソッドを提案します。これは、モデル パラメーターを更新することなく、コンテキスト内で入力を提供します。
特定のトレーニング インスタンスを学習解除するために、反転されたラベルと、推論時に LLM への入力として先頭に付加される追加の正しくラベル付けされたインスタンスとともにインスタンスを提供します。
私たちの実験結果は、これらのコンテキストがトレーニング セットから特定の情報を効果的に削除しながら、LLM パラメーターへのアクセスを必要とする最先端の非学習方法と競合する (場合によってはそれを超える) パフォーマンス レベルを維持することを示しています。
要約(オリジナル)
Machine unlearning, the study of efficiently removing the impact of specific training points on the trained model, has garnered increased attention of late, driven by the need to comply with privacy regulations like the Right to be Forgotten. Although unlearning is particularly relevant for LLMs in light of the copyright issues they raise, achieving precise unlearning is computationally infeasible for very large models. To this end, recent work has proposed several algorithms which approximate the removal of training data without retraining the model. These algorithms crucially rely on access to the model parameters in order to update them, an assumption that may not hold in practice due to computational constraints or when the LLM is accessed via API. In this work, we propose a new class of unlearning methods for LLMs we call ”In-Context Unlearning”, providing inputs in context and without having to update model parameters. To unlearn a particular training instance, we provide the instance alongside a flipped label and additional correctly labelled instances which are prepended as inputs to the LLM at inference time. Our experimental results demonstrate that these contexts effectively remove specific information from the training set while maintaining performance levels that are competitive with (or in some cases exceed) state-of-the-art unlearning methods that require access to the LLM parameters.
arxiv情報
著者 | Martin Pawelczyk,Seth Neel,Himabindu Lakkaraju |
発行日 | 2023-10-12 14:15:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google