要約
大規模な言語モデル(LLM)を人間の価値観に合わせて、望ましくない行動(幻覚など)から離れていることがますます重要になっています。
最近、活性化編集を介してLLMSを目的の動作に向けて操縦していることが、推論時に有害世代を緩和する効果的な方法として浮上しています。
アクティベーション編集により、肯定的なデモンストレーション(たとえば、真実)から情報を保存し、否定的なデモンストレーション(例:幻覚)からの情報を最小化することにより、LLM表現を変更します。
これらのデモンストレーションがプライベートデータセットから来ると、整列したLLMは、これらのプライベートサンプルに含まれる個人情報を漏らすことがあります。
この作業では、LLMの動作をプライベートデータセットに合わせた最初の研究を提示します。
私たちの仕事は、\ textit {\ underline {p} rivate \ underline {s} teering for llm \ underline {a} lignment(psa)}アルゴリズムを提案します。
さまざまなサイズ(0.5bから7b)およびモデルファミリ(Llama、Qwen、Mistral、Gemma)のオープンソースLLMを使用して、7つの異なるベンチマークで広範な実験を実施しています。
我々の結果は、PSAがLLMアラインメントのDP保証を達成し、アライメントメトリック、オープンエンドテキスト生成の品質、汎用推論など、パフォーマンスの最小限の損失を達成することを示しています。
また、アクティベーション編集を介してLLMステアリングの問題の経験的プライバシーを評価および監査するための最初のメンバーシップ推論攻撃(MIA)を開発します。
私たちの攻撃は、アクティベーションの編集に合わせて調整されており、関連する確率なしで生成されたテキストのみに依存しています。
私たちの実験は、いくつかの既存の非プライベート手法と比較して、\ textit {psa}アルゴリズムの改善された保証を示すことにより、理論的保証をサポートします。
要約(オリジナル)
Aligning Large Language Models (LLMs) with human values and away from undesirable behaviors (such as hallucination) has become increasingly important. Recently, steering LLMs towards a desired behavior via activation editing has emerged as an effective method to mitigate harmful generations at inference-time. Activation editing modifies LLM representations by preserving information from positive demonstrations (e.g., truthful) and minimising information from negative demonstrations (e.g., hallucinations). When these demonstrations come from a private dataset, the aligned LLM may leak private information contained in those private samples. In this work, we present the first study of aligning LLM behavior with private datasets. Our work proposes the \textit{\underline{P}rivate \underline{S}teering for LLM \underline{A}lignment (PSA)} algorithm to edit LLM activations with differential privacy (DP) guarantees. We conduct extensive experiments on seven different benchmarks with open-source LLMs of different sizes (0.5B to 7B) and model families (LlaMa, Qwen, Mistral and Gemma). Our results show that PSA achieves DP guarantees for LLM alignment with minimal loss in performance, including alignment metrics, open-ended text generation quality, and general-purpose reasoning. We also develop the first Membership Inference Attack (MIA) for evaluating and auditing the empirical privacy for the problem of LLM steering via activation editing. Our attack is tailored for activation editing and relies solely on the generated texts without their associated probabilities. Our experiments support the theoretical guarantees by showing improved guarantees for our \textit{PSA} algorithm compared to several existing non-private techniques.
arxiv情報
著者 | Anmol Goel,Yaxi Hu,Iryna Gurevych,Amartya Sanyal |
発行日 | 2025-01-30 17:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google