Machine Unlearning of Pre-trained Large Language Models

要約

この研究は、大規模言語モデル (LLM) のコンテキスト内で「忘れられる権利」の概念を調査します。
私たちは、特に研究が進んでいない領域である事前トレーニング済みモデルに焦点を当て、極めて重要なソリューションとして機械の非学習を探求しています。
私たちの研究では、7 つの多様な非学習手法の重要な分析を含む、事前トレーニング済み LLM における機械の非学習のための包括的なフレームワークを概説しています。
arXiv、書籍、GitHub から厳選されたデータセットを使用した厳密な評価を通じて、非学習パフォーマンスの堅牢なベンチマークを確立し、これらの方法が再トレーニングよりも $10^5$ 倍以上計算効率が高いことを実証しました。
私たちの結果は、分布内データで勾配上昇法と勾配降下法を統合すると、ハイパーパラメーターの堅牢性が向上することを示しています。
また、非学習プロセスにおける効率的なハイパーパラメータ調整のための詳細なガイドラインも提供します。
私たちの発見は、倫理的な AI の実践に関する議論を前進させ、事前トレーニングされた LLM の機械のアンラーニングのメカニズムに対する実質的な洞察を提供し、責任ある AI 開発の可能性を強調します。

要約(オリジナル)

This study investigates the concept of the `right to be forgotten’ within the context of large language models (LLMs). We explore machine unlearning as a pivotal solution, with a focus on pre-trained models–a notably under-researched area. Our research delineates a comprehensive framework for machine unlearning in pre-trained LLMs, encompassing a critical analysis of seven diverse unlearning methods. Through rigorous evaluation using curated datasets from arXiv, books, and GitHub, we establish a robust benchmark for unlearning performance, demonstrating that these methods are over $10^5$ times more computationally efficient than retraining. Our results show that integrating gradient ascent with gradient descent on in-distribution data improves hyperparameter robustness. We also provide detailed guidelines for efficient hyperparameter tuning in the unlearning process. Our findings advance the discourse on ethical AI practices, offering substantive insights into the mechanics of machine unlearning for pre-trained LLMs and underscoring the potential for responsible AI development.

arxiv情報

著者 Jin Yao,Eli Chien,Minxin Du,Xinyao Niu,Tianhao Wang,Zezhou Cheng,Xiang Yue
発行日 2024-05-30 15:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク