要約
コンテキスト内の知識編集(IKE)により、パラメーターの変更なしおよびゼロコストで、大規模な言語モデル(LLM)出力を効率的に変更できます。
ただし、誤った情報や攻撃的なコンテンツを挿入するなど、反応を不透明に操作するために誤用する可能性があります。
このような悪意のある介入は、最終入力プロンプトがエンドユーザーに表示されない高レベルのラップAPIに組み込むことができます。
この問題に対処するために、IKE-Editsの検出と逆転を調査します。
まず、ブラックボックス設定であっても、次のトークンの上部10出力確率のみを使用して、IKE-EDITSを高精度(F1> 80 \%)で検出できることを実証します。
限られた出力情報を持つ独自のLLM。
さらに、特別に調整された反転トークンを使用して、Ike-Editsを逆転させるという新しいタスクを紹介します。
連続および離散反転トークンの両方を使用して検討し、複数のLLMにわたって元の編集されていない出力を回復する際に80を超える精度を達成します。
継続的な反転トークンは、編集されていないプロンプトへの影響を最小限に抑えて、特に効果的であることが証明されています。
出力分布、注意パターン、およびトークンランキングの分析を通じて、LLMに対するIKEの影響と、反転トークンがそれらをどのように緩和するかについての洞察を提供します。
この作業は、コンテキスト内の編集の潜在的な誤用に対するLLMの回復力を高め、透明性と信頼性を向上させるための重要なステップを表しています。
要約(オリジナル)
In-context knowledge editing (IKE) enables efficient modification of large language model (LLM) outputs without parameter changes and at zero-cost. However, it can be misused to manipulate responses opaquely, e.g., insert misinformation or offensive content. Such malicious interventions could be incorporated into high-level wrapped APIs where the final input prompt is not shown to end-users. To address this issue, we investigate the detection and reversal of IKE-edits. First, we demonstrate that IKE-edits can be detected with high accuracy (F1 > 80\%) using only the top-10 output probabilities of the next token, even in a black-box setting, e.g. proprietary LLMs with limited output information. Further, we introduce the novel task of reversing IKE-edits using specially tuned reversal tokens. We explore using both continuous and discrete reversal tokens, achieving over 80\% accuracy in recovering original, unedited outputs across multiple LLMs. Our continuous reversal tokens prove particularly effective, with minimal impact on unedited prompts. Through analysis of output distributions, attention patterns, and token rankings, we provide insights into IKE’s effects on LLMs and how reversal tokens mitigate them. This work represents a significant step towards enhancing LLM resilience against potential misuse of in-context editing, improving their transparency and trustworthiness.
arxiv情報
著者 | Paul Youssef,Zhixue Zhao,Jörg Schlötterer,Christin Seifert |
発行日 | 2025-04-10 09:23:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google