Multi-step Jailbreaking Privacy Attacks on ChatGPT

要約

【タイトル】
Multi-step Jailbreaking Privacy Attacks on ChatGPT

【要約】
– 大規模言語モデル(LLM)の急速な進歩により、良いプロンプトがあれば多くのNLPタスクが解決できるようになった。
– LLMのモデル開発者や研究者は、有害なコンテンツを生成しないように、対話の安全性に努めている。
– しかし、人間の善のためにAI生成コンテンツ(AIGC)を操縦するのは依然として困難である。
– 強力なLLMがさまざまなドメインの既存のテキストデータ(たとえば、GPT-3は45TBのテキストで訓練されている)を食いつぶしていることから、私たちは訓練データに個人情報が含まれているかどうか、これらのLLMとそれらの下流アプリケーションがどのようなプライバシー脅威をもたらすかを疑問視するのは自然なことである。
– この論文では、ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingからのプライバシー脅威を研究し、アプリケーション統合LLMがこれまで以上に深刻なプライバシー脅威を引き起こす可能性があることを示す。
– この目的のために、私たちは広範な実験を行い、私たちの主張を支持し、LLMのプライバシーに関連する問題を議論する。

要約(オリジナル)

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given good prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI’s model APIs and New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause more severe privacy threats ever than before. To this end, we conduct extensive experiments to support our claims and discuss LLMs’ privacy implications.

arxiv情報

著者 Haoran Li,Dadi Guo,Wei Fan,Mingshi Xu,Yangqiu Song
発行日 2023-04-11 13:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR パーマリンク