Multi-step Jailbreaking Privacy Attacks on ChatGPT

要約

大規模言語モデル (LLM) の急速な進歩により、適切なプロンプトがあれば、多くの下流の NLP タスクを適切に解決できるようになりました。
モデル開発者や研究者は、LLM から有害なコンテンツが生成されないようにダイアログの安全性に懸命に取り組んでいますが、AI 生成コンテンツ (AIGC) を人間の利益のために導くことは依然として困難です。
強力な LLM がさまざまなドメインの既存のテキスト データを食い荒らしているため (例: GPT-3 は 45 TB のテキストでトレーニングされている)、トレーニング データに個人情報が含まれているかどうか、また、これらの LLM とその下流アプリケーションがどのようなプライバシーの脅威にさらされるのかを疑うのは自然なことです。
持っていく。
この論文では、OpenAI の ChatGPT と ChatGPT によって強化された New Bing によるプライバシーの脅威を調査し、アプリケーションに統合された LLM が新たなプライバシーの脅威を引き起こす可能性があることを示します。
この目的を達成するために、私たちは広範な実験を行って私たちの主張を裏付け、LLM のプライバシーへの影響について議論します。

要約(オリジナル)

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given appropriate prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI’s ChatGPT and the New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause new privacy threats. To this end, we conduct extensive experiments to support our claims and discuss LLMs’ privacy implications.

arxiv情報

著者 Haoran Li,Dadi Guo,Wei Fan,Mingshi Xu,Jie Huang,Fanpu Meng,Yangqiu Song
発行日 2023-05-18 17:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク