Identifying Knowledge Editing Types in Large Language Models

要約

ナレッジ編集は、大規模言語モデル (LLM) の知識を更新するための効率的な技術として登場し、近年ますます注目を集めています。
ただし、LLM で有害な編集が行われる可能性がある、このテクノロジーの悪意のある悪用を防ぐための効果的な対策が不足しています。
これらの悪意のある変更により、LLM が有害なコンテンツを生成し、ユーザーを不適切な行動に導く可能性があります。
このリスクに備えて、LLM のさまざまなタイプの編集を識別することを目的とした新しいタスクであるナレッジ編集タイプ識別 (KETI) を導入します。これにより、不正な編集に遭遇したときにユーザーにタイムリーなアラートを提供します。
このタスクの一環として、最も一般的な有害なタイプをカバーする 5 種類の有害な編集と 1 つの無害な事実編集を含む KETIBench を提案します。
私たちは、オープンソースとクローズドソースの LLM の両方のベースライン識別子として、4 つの古典的な分類モデルと 3 つの BERT ベースのモデルを開発しました。
2 つのモデルと 3 つの知識編集手法を含む 42 件のトライアルにわたる私たちの実験結果は、7 つのベースライン識別子すべてが適切な識別パフォーマンスを達成していることを実証し、LLM での悪意のある編集を識別する実現可能性を強調しています。
追加の分析により、識別子のパフォーマンスは知識編集方法の信頼性とは独立しており、クロスドメインの一般化を示し、未知のソースからの編集を識別できることが明らかになりました。
すべてのデータとコードは https://github.com/xpq-tech/KETI で入手できます。
警告: この文書には有害なテキストの例が含まれています。

要約(オリジナル)

Knowledge editing has emerged as an efficient technology for updating the knowledge of large language models (LLMs), attracting increasing attention in recent years. However, there is a lack of effective measures to prevent the malicious misuse of this technology, which could lead to harmful edits in LLMs. These malicious modifications could cause LLMs to generate toxic content, misleading users into inappropriate actions. In front of this risk, we introduce a new task, Knowledge Editing Type Identification (KETI), aimed at identifying different types of edits in LLMs, thereby providing timely alerts to users when encountering illicit edits. As part of this task, we propose KETIBench, which includes five types of harmful edits covering most popular toxic types, as well as one benign factual edit. We develop four classical classification models and three BERT-based models as baseline identifiers for both open-source and closed-source LLMs. Our experimental results, across 42 trials involving two models and three knowledge editing methods, demonstrate that all seven baseline identifiers achieve decent identification performance, highlighting the feasibility of identifying malicious edits in LLMs. Additional analyses reveal that the performance of the identifiers is independent of the reliability of the knowledge editing methods and exhibits cross-domain generalization, enabling the identification of edits from unknown sources. All data and code are available in https://github.com/xpq-tech/KETI. Warning: This paper contains examples of toxic text.

arxiv情報

著者 Xiaopeng Li,Shangwen Wang,Shezheng Song,Bin Ji,Huijun Liu,Shasha Li,Jun Ma,Jie Yu
発行日 2024-10-01 06:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク