要約
コンテキスト内学習(ICL)は、関連する入出力の例を使用してプロンプトを増強することにより、LLMSの下流タスク適応の有望な改善を示しています(デモンストレーション)。
ただし、ICLデモンストレーションには、LLM出力によってリークおよび/または逆流することができるプライバシーに敏感な情報を含めることができます。
広く採用されているプライバシーセーフガードであるディファレンシャルプライバシー(DP)は、このプライバシーの漏れを軽減するために登場し、最近の作業はICLの分類タスクにおける強力なプライバシー – 活動性のトレードオフを実証しています。
ただし、ICLの生成タスクは、オープンエンドジェネレーションの高次元出力スペースのために困難です。
この目的のために、ワンショットとゼロショット出力と混合することにより、$ \ texttt {dps-mozo} $を提案します。
ゼロショット出力。
このミキシングは、各デモンストレーションによって漏洩する可能性のある情報の量を効果的に削減します。
混合分布からのサンプリングに固有のランダム性を活用することにより、ノイズを追加せずにDPを達成することができ、それによりプライバシーと有効性のトレードオフが改善されます。
私たちの実験的評価は、$ \ texttt {dps-mozo} $が強力なプライバシー保証、$ \ epsilon = 2 $を達成できることを示しています。
-l f1スコアは、gemma 2 2bを使用してSamsumデータセットで減少します。
要約(オリジナル)
In-context learning (ICL) has shown promising improvement in downstream task adaptation of LLMs by augmenting prompts with relevant input-output examples (demonstrations). However, the ICL demonstrations can contain privacy-sensitive information, which can be leaked and/or regurgitated by the LLM output. Differential Privacy (DP), a widely adopted privacy safeguard, has emerged to mitigate this privacy leakage, with recent work demonstrating strong privacy-utility tradeoffs in classification tasks for ICL. However, generation tasks for ICL are challenging due to the high-dimensional output space of open-ended generation. To this end, we propose $\texttt{dps-mozo}$, Differentially Private Sampling by Mixing One-shot with Zero-shot Outputs, a decoding framework that generates DP text by sampling from the product of multiple one-shot outputs mixed with a zero-shot output. This mixing effectively reduces the amount of information that can be leaked by each demonstration. By utilizing the inherent randomness in sampling from the mixed distributions, we can achieve DP without adding noise, thereby improving the privacy-utility tradeoff. Our experimental evaluations show $\texttt{dps-mozo}$ can achieve a strong privacy guarantee, $\epsilon=2$, with minimal utility degradation compared to non-private few-shot learning, $\textbf{0.3}$% ROUGE-L F1 score decrease on the SAMSum dataset with Gemma 2 2B.
arxiv情報
著者 | James Flemings,Haosheng Gan,Hongyi Li,Meisam Razaviyayn,Murali Annavaram |
発行日 | 2025-01-31 16:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google