要約
モデル編集は、コストのかかる再トレーニングを必要とせずに、大規模言語モデル (LLM) の古い知識や誤った知識を修正することを目的としています。
生涯にわたるモデル編集は、LLM の継続的な編集要件を満たす最も困難なタスクです。
これまでの作品は主に単一またはバッチ編集に焦点を当てていました。
それにもかかわらず、これらの方法は、壊滅的な知識の忘却とモデルのパフォーマンスの低下により、生涯にわたる編集シナリオには不十分です。
検索ベースの方法はこれらの問題を軽減しますが、検索された知識をモデルに統合する遅くて面倒なプロセスによって妨げられます。
この研究では、生涯学習における編集効率と推論効率を高めるために、RetriEval で強化された継続的プロンプト学習メソッドである RECIPE を導入します。
RECIPE はまず、ナレッジ ステートメントを、LLM の入力クエリ埋め込みに接頭辞として付けられた短くて有益な連続プロンプトに変換し、ナレッジに基づいて応答を効率的に絞り込みます。
さらに、動的なしきい値を計算する仲介役として機能するナレッジ センチネル (KS) を統合し、検索リポジトリに関連するナレッジが含まれているかどうかを判断します。
私たちのレトリーバーとプロンプトエンコーダーは、編集特性、つまり信頼性、汎用性、局所性を達成するために共同でトレーニングされています。
私たちの実験では、RECIPE は複数の LLM と編集データセットにわたって広範囲に評価され、優れた編集パフォーマンスを実現しています。
RECIPE は、LLM の全体的なパフォーマンスを維持する能力を実証するとともに、高速な編集と推論速度を示します。
要約(オリジナル)
Model editing aims to correct outdated or erroneous knowledge in large language models (LLMs) without the need for costly retraining. Lifelong model editing is the most challenging task that caters to the continuous editing requirements of LLMs. Prior works primarily focus on single or batch editing; nevertheless, these methods fall short in lifelong editing scenarios due to catastrophic knowledge forgetting and the degradation of model performance. Although retrieval-based methods alleviate these issues, they are impeded by slow and cumbersome processes of integrating the retrieved knowledge into the model. In this work, we introduce RECIPE, a RetriEval-augmented ContInuous Prompt lEarning method, to boost editing efficacy and inference efficiency in lifelong learning. RECIPE first converts knowledge statements into short and informative continuous prompts, prefixed to the LLM’s input query embedding, to efficiently refine the response grounded on the knowledge. It further integrates the Knowledge Sentinel (KS) that acts as an intermediary to calculate a dynamic threshold, determining whether the retrieval repository contains relevant knowledge. Our retriever and prompt encoder are jointly trained to achieve editing properties, i.e., reliability, generality, and locality. In our experiments, RECIPE is assessed extensively across multiple LLMs and editing datasets, where it achieves superior editing performance. RECIPE also demonstrates its capability to maintain the overall performance of LLMs alongside showcasing fast editing and inference speed.
arxiv情報
著者 | Qizhou Chen,Taolin Zhang,Xiaofeng He,Dongyang Li,Chengyu Wang,Longtao Huang,Hui Xue |
発行日 | 2024-05-08 03:45:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google