Evaluating the Ripple Effects of Knowledge Editing in Language Models

要約

現代の言語モデルは、大量の事実知識を取り込みます。
ただし、一部の事実は誤って誘導されたり、時間の経過とともに時代遅れになったりする可能性があり、その結果、事実として不正確な世代が生成される可能性があります。
これにより、モデルによってエンコードされたファクトを更新できるさまざまな編集方法が開発されました。
これらの方法の評価は、主に、個々のファクトが正常に挿入されたかどうか、および他の主題に対する同様の予測が変更されていないかどうかをテストすることに重点が置かれています。
ここでは、1 つの事実 (例: 「ジャック・デップはジョニー・デップの息子」) を注入すると、モデルが更新する必要がある追加の事実 (例: 「ジャック・デップはリリー・ローズ・デップの兄弟である」) の形で「波及効果」が導入されるため、そのような評価には限界があると主張します。
この問題に対処するために、関連する事実に対する編集の影響を考慮した一連の新しい評価基準を提案します。
これらの基準を使用して、さまざまなタイプの波及効果をキャプチャする、5K の事実編集の診断ベンチマークである \ripple{} を構築します。
私たちは \ripple{} で著名な編集手法を評価し、現在の手法ではモデルの知識に一貫した変更を導入できていないことを示しています。
さらに、単純なコンテキスト内編集ベースラインがベンチマークで最高のスコアを取得することがわかり、モデル編集の有望な研究方向性が示唆されています。

要約(オリジナル)

Modern language models capture a large body of factual knowledge. However, some facts can be incorrectly induced or become obsolete over time, resulting in factually incorrect generations. This has led to the development of various editing methods that allow updating facts encoded by the model. Evaluation of these methods has primarily focused on testing whether an individual fact has been successfully injected, and if similar predictions for other subjects have not changed. Here we argue that such evaluation is limited, since injecting one fact (e.g. “Jack Depp is the son of Johnny Depp”) introduces a “ripple effect” in the form of additional facts that the model needs to update (e.g.“Jack Depp is the sibling of Lily-Rose Depp”). To address this issue, we propose a novel set of evaluation criteria that consider the implications of an edit on related facts. Using these criteria, we then construct \ripple{}, a diagnostic benchmark of 5K factual edits, capturing a variety of types of ripple effects. We evaluate prominent editing methods on \ripple{}, showing that current methods fail to introduce consistent changes in the model’s knowledge. In addition, we find that a simple in-context editing baseline obtains the best scores on our benchmark, suggesting a promising research direction for model editing.

arxiv情報

著者 Roi Cohen,Eden Biran,Ori Yoran,Amir Globerson,Mor Geva
発行日 2023-07-24 17:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク