Inside the Black Box: Detecting Data Leakage in Pre-trained Language Encoders

要約

自然言語処理 (NLP) の一般的な分野では普及しているにもかかわらず、事前トレーニング済み言語モデルは、大規模な Web スクレイピング データに対するトレーニングという性質上、本質的にプライバシーと著作権に関する懸念を伴います。
この論文では、事前トレーニングされた言語エンコーダに関連するそのようなリスクの体系的な調査の先駆けとして、特に、事前トレーニングされた言語エンコーダから適応された下流モデルを通じて公開される事前トレーニング データのメンバーシップ漏洩に焦点を当てます。この側面は既存の文献ではほとんど見落とされています。

私たちの調査には、4 種類の事前トレーニングされたエンコーダー アーキテクチャ、3 つの代表的なダウンストリーム タスク、および 5 つのベンチマーク データセットにわたる包括的な実験が含まれています。
興味深いことに、私たちの評価では、下流モデルのブラックボックス出力のみが公開されている場合でもメンバーシップ漏洩の存在が初めて明らかになり、以前に想定されていたよりもはるかに大きなプライバシーリスクが浮き彫りになりました。
同時に、事前トレーニング済み言語モデルの開発におけるプライバシーの考慮事項に対処する際に、将来の研究者や実践者を導くための詳細な分析と洞察を示します。

要約(オリジナル)

Despite being prevalent in the general field of Natural Language Processing (NLP), pre-trained language models inherently carry privacy and copyright concerns due to their nature of training on large-scale web-scraped data. In this paper, we pioneer a systematic exploration of such risks associated with pre-trained language encoders, specifically focusing on the membership leakage of pre-training data exposed through downstream models adapted from pre-trained language encoders-an aspect largely overlooked in existing literature. Our study encompasses comprehensive experiments across four types of pre-trained encoder architectures, three representative downstream tasks, and five benchmark datasets. Intriguingly, our evaluations reveal, for the first time, the existence of membership leakage even when only the black-box output of the downstream model is exposed, highlighting a privacy risk far greater than previously assumed. Alongside, we present in-depth analysis and insights toward guiding future researchers and practitioners in addressing the privacy considerations in developing pre-trained language models.

arxiv情報

著者 Yuan Xin,Zheng Li,Ning Yu,Dingfan Chen,Mario Fritz,Michael Backes,Yang Zhang
発行日 2024-08-20 17:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク