MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

要約

大規模言語モデル (LLM) に保存されている情報はすぐに古くなり、最初から再トレーニングすることはできないことがよくあります。
これにより、最近、モデルの重みを更新することで新しいファクトを注入するためのさまざまなテクニックが生まれました。
現在の評価パラダイムは非常に限られており、主に編集された事実の再現を検証しますが、1 つの事実を変更すると、モデルの関連する信念に大きな変化が生じるはずです。
英国首相を現在リシ・スナックに編集すると、「英国首相と結婚しているのは誰ですか?」に対して別の答えが得られるはずです。
この研究では、編集された事実の必然的な結果として答えが変わるはずの質問に、編集されたモデルが正しく答えるかどうかを評価するマルチホップ質問で構成されるベンチマーク MQuAKE (知識編集のためのマルチホップ質問応答) を紹介します。
現在の知識編集アプローチは、編集された事実を正確に思い出すことができるが、構築されたマルチホップ質問では壊滅的に失敗することがわかりました。
そこで、我々は単純な記憶ベースのアプローチである MeLLo を提案します。MeLLo は、編集されたすべてのファクトを外部に保存しながら、編集されたファクトと一致する回答を生成するよう言語モデルを繰り返し促します。
MQuAKE は依然として課題が多いものの、MeLLo は LLM (OpenAI GPT-3.5-turbo など) でうまく拡張でき、以前のモデル エディターを大幅に上回るパフォーマンスを示します。

要約(オリジナル)

The information stored in large language models (LLMs) falls out of date quickly, and retraining from scratch is often not an option. This has recently given rise to a range of techniques for injecting new facts through updating model weights. Current evaluation paradigms are extremely limited, mainly validating the recall of edited facts, but changing one fact should cause rippling changes to the model’s related beliefs. If we edit the UK Prime Minister to now be Rishi Sunak, then we should get a different answer to Who is married to the British Prime Minister? In this work, we present a benchmark, MQuAKE (Multi-hop Question Answering for Knowledge Editing), comprising multi-hop questions that assess whether edited models correctly answer questions where the answer should change as an entailed consequence of edited facts. While we find that current knowledge-editing approaches can recall edited facts accurately, they fail catastrophically on the constructed multi-hop questions. We thus propose a simple memory-based approach, MeLLo, which stores all edited facts externally while prompting the language model iteratively to generate answers that are consistent with the edited facts. While MQuAKE remains challenging, we show that MeLLo scales well with LLMs (e.g., OpenAI GPT-3.5-turbo) and outperforms previous model editors by a large margin.

arxiv情報

著者 Zexuan Zhong,Zhengxuan Wu,Christopher D. Manning,Christopher Potts,Danqi Chen
発行日 2024-09-09 04:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク