要約
この論文では、抽出可能な記憶、つまり攻撃者がトレーニング データセットの事前知識がなくても機械学習モデルにクエリを実行することで効率的に抽出できるトレーニング データについて研究します。
攻撃者が Pythia や GPT-Neo などのオープンソース言語モデル、LLaMA や Falcon などのセミオープン モデル、ChatGPT などのクローズド モデルからギガバイトのトレーニング データを抽出できることを示します。
文献に記載されている既存の手法は、アライメントされていないモデルを攻撃するのに十分です。
調整された ChatGPT を攻撃するために、モデルをチャットボット スタイルの世代から分岐させ、適切に動作しているときの 150 倍の速度でトレーニング データを送信させる新しい分岐攻撃を開発しました。
私たちの手法は、実際の攻撃により、これまで考えられていたよりもはるかに多くのデータを回復できることを示し、現在のアライメント技術では記憶が排除されないことを明らかにしています。
要約(オリジナル)
This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model without prior knowledge of the training dataset. We show an adversary can extract gigabytes of training data from open-source language models like Pythia or GPT-Neo, semi-open models like LLaMA or Falcon, and closed models like ChatGPT. Existing techniques from the literature suffice to attack unaligned models; in order to attack the aligned ChatGPT, we develop a new divergence attack that causes the model to diverge from its chatbot-style generations and emit training data at a rate 150x higher than when behaving properly. Our methods show practical attacks can recover far more data than previously thought, and reveal that current alignment techniques do not eliminate memorization.
arxiv情報
著者 | Milad Nasr,Nicholas Carlini,Jonathan Hayase,Matthew Jagielski,A. Feder Cooper,Daphne Ippolito,Christopher A. Choquette-Choo,Eric Wallace,Florian Tramèr,Katherine Lee |
発行日 | 2023-11-28 18:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google