要約
大規模な言語モデル(LLMS)の知識編集手法は、後で再現可能な逐語的な知識を注入できますが、知識を伝えることに不足しています。モデルは、注入された知識を持って推論を必要とする質問に答えることができません。
PropMendという名前の知識伝播のためのハイパーネットワークベースのアプローチを提示します。ここでは、言語モデリングの損失の勾配を変更して、注入された情報を伝播することを奨励する方法をメタを記録します。
私たちのアプローチは、MENDのメタ客観を拡張し[29]、知識に関する勾配の更新が変換され、その知識が関与するマルチホップの質問に答えることができるようになります。
RippleEditデータセットでのパフォーマンスの向上を示し、挿入された事実では答えが明示的に述べられていない挑戦的なマルチホップの質問でほぼ2倍の精度を示しています。
さらに、ハイパーネットワークの一般化を評価するために、新しいデータセットであるRippleEditを制御し、ハイパーネットワークトレーニング中に目にされていない関係やエンティティに沿った知識の伝播をテストします。
Propmendは、目に見えないエンティティ関連のペアで既存のアプローチよりも優れていますが、パフォーマンスギャップは大幅に減少し、幅広い関係に知識を伝播する将来の仕事を示唆しています。
要約(オリジナル)
Knowledge editing techniques for large language models (LLMs) can inject knowledge that is later reproducible verbatim, but they fall short on propagating that knowledge: models cannot answer questions that require reasoning with the injected knowledge. We present a hypernetwork-based approach for knowledge propagation, named PropMEND, where we meta-learn how to modify gradients of a language modeling loss to encourage injected information to propagate. Our approach extends the meta-objective of MEND [29] so that gradient updates on knowledge are transformed to enable answering multi-hop questions involving that knowledge. We show improved performance on the RippleEdit dataset, showing almost 2x accuracy on challenging multi-hop questions whose answers are not explicitly stated in the injected fact. We further introduce a new dataset, Controlled RippleEdit, to evaluate the generalization of our hypernetwork, testing knowledge propagation along relations and entities unseen during hypernetwork training. PropMEND still outperforms existing approaches in unseen entity-relation pairs, yet the performance gap decreases substantially, suggesting future work in propagating knowledge to a wide range of relations.
arxiv情報
著者 | Zeyu Leo Liu,Greg Durrett,Eunsol Choi |
発行日 | 2025-06-10 15:44:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google