Propagating Knowledge Updates to LMs Through Distillation

要約

現代の言語モデルには、現実世界のエンティティに関する膨大な量の知識を保存して使用する能力がありますが、その暗黙の「知識ベース」を更新する方法は依然として不明です。LM 内の知識を更新するための以前の方法は事実をうまく挿入できましたが、更新された LM はその後、
これらの注入された事実に基づいて推論を行うことができません。
この研究では、コンテキスト蒸留ベースのアプローチが、エンティティに関する知識を与えることと、その知識を伝播してより広範な推論を可能にすることの両方ができることを実証します。
私たちのアプローチは、トランスファー セットの生成とトランスファー セットでの蒸留の 2 つの段階で構成されます。
まず、言語モデルにエンティティ定義からの継続を生成するように指示するだけで、転送セットを生成します。
次に、LM (生徒) の分布が、転送セット上の定義 (教師) に条件付けされた LM の分布と一致するように、モデル パラメーターを更新します。
私たちの実験では、このアプローチは、一度に最大 150 個のエンティティの定義を注入する場合でも、他のコンテキストでのパフォーマンスを損なうことなく、微調整や他の勾配ベースの知識編集方法と比較して、知識の更新を伝達するのに効果的であることを示しています。

要約(オリジナル)

Modern language models have the capacity to store and use immense amounts of knowledge about real-world entities, but it remains unclear how to update their implicit ‘knowledge bases.” While prior methods for updating knowledge in LMs successfully inject facts, updated LMs then fail to make inferences based on these injected facts. In this work, we demonstrate that a context distillation-based approach can both impart knowledge about entities and propagate that knowledge to enable broader inferences. Our approach consists of two stages: transfer set generation and distillation on the transfer set. We first generate a transfer set by simply prompting a language model to generate a continuation from the entity definition. Then, we update the model parameters so that the distribution of the LM (the student) matches the distribution of the LM conditioned on the definition (the teacher) on the transfer set. Our experiments demonstrate that this approach is more effective in propagating knowledge updates compared to fine-tuning and other gradient-based knowledge-editing methods without compromising performance in other contexts, even when injecting the definitions of up to 150 entities at once.

arxiv情報

著者 Shankar Padmanabhan,Yasumasa Onoe,Michael J. Q. Zhang,Greg Durrett,Eunsol Choi
発行日 2023-06-15 17:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク