Knowledge Editing in Language Models via Adapted Direct Preference Optimization

要約

大規模言語モデル (LLM) は、最新の世界知識が不足している可能性があるため、時間の経過とともに時代遅れになる可能性があり、事実に関する知識の誤りやギャップが発生します。
Knowledge Editing (KE) は、高価な再トレーニングを必要としない重み更新を使用して、この課題を克服することを目的としています。
KE を LLM アライメント問題として扱うことを提案します。
この目標に向けて、ナレッジの変更により効果的な直接プリファレンス最適化 (DPO) のバリエーションであるナレッジ直接プリファレンス最適化 (KDPO) を導入します。
私たちの方法は、モデルに保存されている知識を継続的に更新するオンライン アプローチに基づいています。
DPO と呼ばれるプロセスで、現在の知識をネガティブ サンプルとして使用し、導入したい新しい知識をポジティブ サンプルとして使用します。
また、ネガティブ サンプルの生成には教師による強制を使用し、ポジティブ サンプルを使用して最適化することで、局所的な変更を維持するのに役立ちます。
私たちは KE メソッドをさまざまなデータセットとモデルでテストし、100 回および 500 回の連続編集でいくつかの最先端のメソッドと比較しました。
さらに、我々は、我々の方法と標準的な DPO アプローチを比較するアブレーション研究を実施しました。
私たちの実験結果は、修正された DPO メソッドにより、より洗練された KE が可能になり、以前のメソッドと比較して同等以上のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Large Language Models (LLMs) can become outdated over time as they may lack updated world knowledge, leading to factual knowledge errors and gaps. Knowledge Editing (KE) aims to overcome this challenge using weight updates that do not require expensive retraining. We propose treating KE as an LLM alignment problem. Toward this goal, we introduce Knowledge Direct Preference Optimization (KDPO), a variation of the Direct Preference Optimization (DPO) that is more effective for knowledge modifications. Our method is based on an online approach that continually updates the knowledge stored in the model. We use the current knowledge as a negative sample and the new knowledge we want to introduce as a positive sample in a process called DPO. We also use teacher-forcing for negative sample generation and optimize using the positive sample, which helps maintain localized changes. We tested our KE method on various datasets and models, comparing it to several cutting-edge methods, with 100 and 500 sequential edits. Additionally, we conducted an ablation study comparing our method to the standard DPO approach. Our experimental results show that our modified DPO method allows for more refined KE, achieving similar or better performance compared to previous methods.

arxiv情報

著者 Amit Rozner,Barak Battash,Lior Wolf,Ofir Lindenbaum
発行日 2024-09-24 09:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク