MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained Language Models

要約

トランスフォーマーベースの言語モデル (LM) は、ハードコーディングされた大規模な入力ウィンドウを通じてコン​​テキスト情報を追跡します。
これは、LM の微調整を必要とせずに、ソフト プロンプトに似た一連のベクトルを通常の入力の前に付けることで LM に情報を渡す小さな補助再帰ネットワークによって LM が補完される、より無駄のないアプローチである MemoryPrompt を導入します。
複数の事実更新を追跡する LM の能力を調査するように設計されたタスクでテストしたところ、MemoryPrompt で拡張された LM は、完全な入力履歴にアクセスできるはるかに大規模な LM よりも優れたパフォーマンスを発揮しました。
また、長距離対話データセットで MemoryPrompt をテストしました。そのパフォーマンスは、会話履歴全体を条件としたモデルのパフォーマンスに匹敵します。
どちらの実験でも、完全な微調整アプローチとは異なり、MemoryPrompt は新しいタスクに適応したときに致命的な忘却に悩まされず、したがって基礎となる LM のジェネラリスト機能を混乱させないことも観察されました。

要約(オリジナル)

Transformer-based language models (LMs) track contextual information through large, hard-coded input windows. We introduce MemoryPrompt, a leaner approach in which the LM is complemented by a small auxiliary recurrent network that passes information to the LM by prefixing its regular input with a sequence of vectors, akin to soft prompts, without requiring LM finetuning. Tested on a task designed to probe a LM’s ability to keep track of multiple fact updates, a MemoryPrompt-augmented LM outperforms much larger LMs that have access to the full input history. We also test MemoryPrompt on a long-distance dialogue dataset, where its performance is comparable to that of a model conditioned on the entire conversation history. In both experiments we also observe that, unlike full-finetuning approaches, MemoryPrompt does not suffer from catastrophic forgetting when adapted to new tasks, thus not disrupting the generalist capabilities of the underlying LM.

arxiv情報

著者 Nathanaël Carraz Rakotonirina,Marco Baroni
発行日 2024-02-23 11:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク