PAPILLON: PrivAcy Preservation from Internet-based and Local Language MOdel ENsembles

要約

ユーザーは機密情報を独自の LLM プロバイダーに漏らす可能性があり、プライバシーに関する重大な懸念が生じます。
ユーザーのマシン上でローカルにホストされるオープンソース モデルはいくつかの懸念を軽減しますが、ユーザーがローカルでホストできるモデルはプロプライエタリなフロンティア モデルよりも機能が劣ることがよくあります。
最高の品質を維持しながらユーザーのプライバシーを保護するために、API ベースのモデルとローカル モデルをチェーンするための新しいタスクであるプライバシーを意識した委任を提案します。
当社は、ユーザーと LLM のやり取りに関する最近の公開コレクションを利用して、個人を特定できる情報 (PII) を含む PUPA と呼ばれる自然なベンチマークを構築します。
潜在的なアプローチを研究するために、プロンプト最適化を使用してタスクのより単純なバージョンに対処するマルチステージ LLM パイプラインである PAPILLON を考案しました。
当社の最高のパイプラインは、ユーザー クエリの 85.5% に対して高い応答品質を維持しながら、プライバシーの漏洩をわずか 7.5% に制限します。
将来の作業のために、独自の LLM の生成品質にまだ大きな余裕を残しています。
私たちのデータとコードは https://github.com/siyan-sylvia-li/PAPILLON で入手できます。

要約(オリジナル)

Users can divulge sensitive information to proprietary LLM providers, raising significant privacy concerns. While open-source models, hosted locally on the user’s machine, alleviate some concerns, models that users can host locally are often less capable than proprietary frontier models. Toward preserving user privacy while retaining the best quality, we propose Privacy-Conscious Delegation, a novel task for chaining API-based and local models. We utilize recent public collections of user-LLM interactions to construct a natural benchmark called PUPA, which contains personally identifiable information (PII). To study potential approaches, we devise PAPILLON, a multi-stage LLM pipeline that uses prompt optimization to address a simpler version of our task. Our best pipeline maintains high response quality for 85.5% of user queries while restricting privacy leakage to only 7.5%. We still leave a large margin to the generation quality of proprietary LLMs for future work. Our data and code will be available at https://github.com/siyan-sylvia-li/PAPILLON.

arxiv情報

著者 Li Siyan,Vethavikashini Chithrra Raghuram,Omar Khattab,Julia Hirschberg,Zhou Yu
発行日 2024-10-22 16:00:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク