Efficient Knowledge Editing via Minimal Precomputation

要約

Memitのような知識編集方法は、単一の文を使用して事実とその結果を更新することにより、データを作成し、事実知識の効率的な更新を計算することができます。
ただし、しばしば見落とされているのは「事前計算ステップ」であり、1回限りの計算コストが必要です。
Memitの著者は、もともと編集されたレイヤーごとに約4,400万個の隠されたベクトルを事前に計算しました。これには、4,400万個のトークンを超えるフォワードパスが必要です。
GPT-J(6B)の場合、この事前計算ステップは1つのGPUで36時間かかりますが、Llama2-7bでは約40時間かかります。
さらに、この事前計算時間はモデルサイズで成長します。
この論文では、この過剰な計算コストが不要であることを示します。
ローマやエメットなどのMemitおよび関連する方法を使用した知識編集は、4400万の隠されたベクトルのごく一部を事前に計算することで実行できます。
最初に、これらの編集方法の解決策に必要な隠されたベクトルの事前計算の理論的最小数を存在させます。
次に、これらの方法を使用した知識の編集を、隠しベクターを大幅に少なくすることで行うことができることを経験的に示します。
具体的には、元々規定された数の隠されたベクトルの0.3%未満で事前計算ステップを実行できることを示します。
これにより、かなりの量の事前計算時間が節約され、ユーザーが数分以内に新しいモデルの編集を開始できます。

要約(オリジナル)

Knowledge editing methods like MEMIT are able to make data and compute efficient updates of factual knowledge by using a single sentence to update facts and their consequences. However, what is often overlooked is a ‘precomputation step’, which requires a one-time but significant computational cost. The authors of MEMIT originally precompute approximately 44 million hidden vectors per edited layer, which requires a forward pass over 44 million tokens. For GPT-J (6B), this precomputation step takes 36 hours on a single GPU, while it takes approximately 40 hours for Llama2-7B. Additionally, this precomputation time grows with model size. In this paper, we show that this excessive computational cost is unnecessary. Knowledge editing using MEMIT and related methods, such as ROME and EMMET, can be performed by pre-computing a very small portion of the 44 million hidden vectors. We first present the theoretical minimum number of hidden vector precomputation required for solutions of these editing methods to exist. We then empirically show that knowledge editing using these methods can be done by pre-computing significantly fewer hidden vectors. Specifically, we show that the precomputation step can be done with less than 0.3% of the originally stipulated number of hidden vectors. This saves a significant amount of precomputation time and allows users to begin editing new models within a few minutes.

arxiv情報

著者 Akshat Gupta,Maochuan Lu,Thomas Hartvigsen,Gopala Anumanchipalli
発行日 2025-06-04 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク