Training Data Extraction From Pre-trained Language Models: A Survey

要約

事前トレーニング済み言語モデル (PLM) の導入が拡大するにつれて、トレーニング データが悪意を持って抽出される可能性に関して差し迫ったセキュリティ上の懸念が生じ、データ プライバシーに対する脅威となっています。
この調査は、PLM からのトレーニング データ抽出に関する包括的な調査を提供する最初の調査です。
私たちのレビューは、自然言語処理やセキュリティなどの分野の 100 以上の重要な論文をカバーしています。
まず、予備知識を復習し、暗記のさまざまな定義の分類を示します。
そして、攻撃と防御のアプローチが体系化されます。
さらに、いくつかの定量的研究の実証結果が強調されています。
最後に、このレビューに基づいた今後の研究の方向性を提案します。

要約(オリジナル)

As the deployment of pre-trained language models (PLMs) expands, pressing security concerns have arisen regarding the potential for malicious extraction of training data, posing a threat to data privacy. This study is the first to provide a comprehensive survey of training data extraction from PLMs. Our review covers more than 100 key papers in fields such as natural language processing and security. First, preliminary knowledge is recapped and a taxonomy of various definitions of memorization is presented. The approaches for attack and defense are then systemized. Furthermore, the empirical findings of several quantitative studies are highlighted. Finally, future research directions based on this review are suggested.

arxiv情報

著者 Shotaro Ishihara
発行日 2023-05-25 15:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク