Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy

要約

Large Language Model~(LLM) は、事前トレーニング データが古いため、最新の情報を提供するのに苦労しています。
知識の編集や継続的な微調整など、LLM を更新するための既存の方法には、新しい情報の一般化性と構造化された更新コーパスの要件において重大な欠点があります。
私たちは、これらの欠点の背後にある中心的な課題、つまり言語モデリングの確率と論理確率の違いを特徴とする LM 論理の不一致を特定します。
この中心的な課題を評価し、解決するために、我々は、非構造化更新コーパスの提供のみを必要とし、更新情報に関連する質問と回答のペアに対する一般化可能性に関して情報更新のパフォーマンスを評価する、情報更新タスクの新しいタスク定式化を提案します。
さらに、このタスクに対する新規で効果的なパイプライン アプローチを提案し、自動プロンプトベースの質問と回答の生成プロセスと、LM 論理の不一致を埋めるための連想蒸留方法に焦点を当てます。
評価用に 2 つのデータセットを開発しました。1 つは 2023 年 3 月と 4 月に発行されたニュース記事からのもので、もう 1 つは Natural question ベンチマークからのものです。
実験結果は、私たちのアプローチの優位性を実証し、事実一貫性スコア (0 から 1 のスケール) を最大 0.16 まで大幅に増加させました。
さらに、私たちの方法は、トレーニング トークンのわずか 2.3% を使用したコンパクトなリプレイ バッファーを利用することで、効果的に忘れを軽減します。

要約(オリジナル)

Large Language Models~(LLMs) struggle with providing current information due to the outdated pre-training data. Existing methods for updating LLMs, such as knowledge editing and continual fine-tuning, have significant drawbacks in generalizability of new information and the requirements on structured updating corpus. We identify the core challenge behind these drawbacks: the LM-logical discrepancy featuring the difference between language modeling probabilities and logical probabilities. To evaluate and address the core challenge, we propose a new task formulation of the information updating task that only requires the provision of an unstructured updating corpus and evaluates the performance of information updating on the generalizability to question-answer pairs pertaining to the updating information. We further propose a novel and effective pipeline approach for the task, highlighting a self-prompting-based question-answer generation process and a associative distillation methods to bridge the LM-logical discrepancy. We develop two datasets for evaluation, one sourced from news articles published in March and April 2023, and the other from the Natural Questions benchmark. Experimental results demonstrate the superiority of our approach, significantly increasing the factual consistency score (on a scale from 0 to 1) by up to 0.16. Furthermore, our method effectively mitigates forgetting utilizing a compact replay buffer with only 2.3% of the training tokens.

arxiv情報

著者 Pengfei Yu,Heng Ji
発行日 2024-02-09 06:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク