Can We Reverse In-Context Knowledge Edits?

要約

インコンテキスト知識編集 (IKE) により、パラメーターを変更せずにコストゼロで大規模言語モデル (LLM) 出力を効率的に変更できます。
ただし、誤った情報や攻撃的なコンテンツを挿入するなど、不透明に応答を操作するために悪用される可能性があります。
このような悪意のある介入は、最終的な入力プロンプトがエンドユーザーに表示されない、高レベルでラップされた API に組み込まれる可能性があります。
この問題に対処するために、IKE 編集の検出と取り消しを調査します。
まず、ブラックボックス設定であっても、次のトークンの上位 10 位の出力確率のみを使用して、IKE 編集を高精度 (F1 > 80\%) で検出できることを示します。
出力情報が制限された独自の LLM。
さらに、特別に調整された反転トークンを使用して IKE 編集を反転するという新しいタスクを導入します。
私たちは、連続および離散反転トークンの両方を使用して、複数の LLM にわたって元の編集されていない出力を復元する際に 80% 以上の精度を達成することを検討しています。
当社の継続的反転トークンは、未編集のプロンプトへの影響を最小限に抑え、特に効果的であることが証明されています。
出力分布、注目パターン、トークンランキングの分析を通じて、LLM に対する IKE の影響と、リバーサルトークンがそれらをどのように軽減するかについての洞察を提供します。
この取り組みは、コンテキスト内編集の潜在的な悪用に対する LLM の回復力を強化し、その透明性と信頼性を向上させるための重要な一歩を表しています。

要約(オリジナル)

In-context knowledge editing (IKE) enables efficient modification of large language model (LLM) outputs without parameter changes and at zero-cost. However, it can be misused to manipulate responses opaquely, e.g., insert misinformation or offensive content. Such malicious interventions could be incorporated into high-level wrapped APIs where the final input prompt is not shown to end-users. To address this issue, we investigate the detection and reversal of IKE-edits. First, we demonstrate that IKE-edits can be detected with high accuracy (F1 > 80\%) using only the top-10 output probabilities of the next token, even in a black-box setting, e.g. proprietary LLMs with limited output information. Further, we introduce the novel task of reversing IKE-edits using specially tuned reversal tokens. We explore using both continuous and discrete reversal tokens, achieving over 80\% accuracy in recovering original, unedited outputs across multiple LLMs. Our continuous reversal tokens prove particularly effective, with minimal impact on unedited prompts. Through analysis of output distributions, attention patterns, and token rankings, we provide insights into IKE’s effects on LLMs and how reversal tokens mitigate them. This work represents a significant step towards enhancing LLM resilience against potential misuse of in-context editing, improving their transparency and trustworthiness.

arxiv情報

著者 Paul Youssef,Zhixue Zhao,Jörg Schlötterer,Christin Seifert
発行日 2024-10-16 14:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク