PAPILLON: Privacy Preservation from Internet-based and Local Language Model Ensembles

要約

ユーザーは、独自のLLMプロバイダーに機密情報を漏らし、重大なプライバシーの懸念を引き起こすことができます。
ユーザーのマシンでローカルにホストされているオープンソースモデルは、いくつかの懸念を軽減しますが、ユーザーがローカルでホストできるモデルは、独自のフロンティアモデルよりも能力が低いことがよくあります。
最高品質を維持しながらユーザーのプライバシーを維持することに向けて、APIベースのモデルとローカルモデルをチェーンするための新しいタスクであるプライバシー志向の代表団を提案します。
最近のユーザー-LLMインタラクションのパブリックコレクションを利用して、個人識別可能な情報(PII)を含むPUPAと呼ばれる自然なベンチマークを構築します。
潜在的なアプローチを研究するために、迅速な最適化を使用してタスクのより単純なバージョンに対処するマルチステージLLMパイプラインであるPapillonを考案します。
当社の最高のパイプラインは、ユーザークエリの85.5%に対して高い応答品質を維持し、プライバシー漏れを7.5%に制限しています。
私たちは、将来の仕事のために、独自のLLMの世代の質に大きなマージンを残しています。
データとコードはhttps://github.com/siyan-sylvia-li/papillonで入手できます。

要約(オリジナル)

Users can divulge sensitive information to proprietary LLM providers, raising significant privacy concerns. While open-source models, hosted locally on the user’s machine, alleviate some concerns, models that users can host locally are often less capable than proprietary frontier models. Toward preserving user privacy while retaining the best quality, we propose Privacy-Conscious Delegation, a novel task for chaining API-based and local models. We utilize recent public collections of user-LLM interactions to construct a natural benchmark called PUPA, which contains personally identifiable information (PII). To study potential approaches, we devise PAPILLON, a multi-stage LLM pipeline that uses prompt optimization to address a simpler version of our task. Our best pipeline maintains high response quality for 85.5% of user queries while restricting privacy leakage to only 7.5%. We still leave a large margin to the generation quality of proprietary LLMs for future work. Our data and code will be available at https://github.com/siyan-sylvia-li/PAPILLON.

arxiv情報

著者 Li Siyan,Vethavikashini Chithrra Raghuram,Omar Khattab,Julia Hirschberg,Zhou Yu
発行日 2025-01-28 16:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク