Knowledge Editing on Black-box Large Language Models

要約

ナレッジ編集 (KE) は、大規模言語モデル (LLM) の動作を効率的かつ正確に変更して、他の知識に悪影響を与えることなく特定の知識を更新することを目的としています。
現在の研究は主にホワイトボックス LLM 編集に焦点を当てており、重要なシナリオ、つまり LLM がインターフェイスを通じてアクセスされ、テキスト出力のみが利用できるブラックボックス LLM 編集を見落としています。
ブラックボックスLLM編集には適用できず、包括性に欠ける既存の評価の限界に対処するために、スタイル保持の評価を初めて組み込んだ多視点評価フレームワークを提案します。
現在の手法における編集データのプライバシー漏洩とスタイルの過剰編集に対処するために、私たちは新しい postEdit フレームワークを導入し、下流の後処理を通じてプライバシーの問題を解決し、元の応答に対するきめ細かい編集を通じてテキストのスタイルの一貫性を維持します。
2 つのベンチマークの実験と分析では、postEdit がすべてのベースラインを上回っており、特にスタイル保持の大幅な改善 (平均 $+20.82\%\uparrow$) により、強力な一般化を実現していることが実証されています。

要約(オリジナル)

Knowledge editing (KE) aims to efficiently and precisely modify the behavior of large language models (LLMs) to update specific knowledge without negatively influencing other knowledge. Current research primarily focuses on white-box LLMs editing, overlooking an important scenario: black-box LLMs editing, where LLMs are accessed through interfaces and only textual output is available. To address the limitations of existing evaluations that are not inapplicable to black-box LLM editing and lack comprehensiveness, we propose a multi-perspective evaluation framework, incorporating the assessment of style retention for the first time. To tackle privacy leaks of editing data and style over-editing in current methods, we introduce a novel postEdit framework, resolving privacy concerns through downstream post-processing and maintaining textual style consistency via fine-grained editing to original responses. Experiments and analysis on two benchmarks demonstrate that postEdit outperforms all baselines and achieves strong generalization, especially with huge improvements on style retention (average $+20.82\%\uparrow$).

arxiv情報

著者 Xiaoshuai Song,Zhengyang Wang,Keqing He,Guanting Dong,Jinxu Zhao,Weiran Xu
発行日 2024-02-13 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク