Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

要約

即時学習アプローチは、依然としてパラメトリックベースの学習パラダイムに従いながら、少数ショットのパフォーマンスを向上させることで、自然言語処理に波を起こしています。
学習における忘却と暗記の問題は、不安定な一般化の問題に遭遇する可能性があります。
具体的には、バニラのプロンプト学習では、完全教師ありトレーニング中に非定型インスタンスを暗記的に利用したり、ローショット データで浅いパターンをオーバーフィットしたりするのに苦労する可能性があります。
このような制限を軽減するために、モデルが一般化と暗記のバランスをとるのを助けるために、知識を暗記から切り離すという動機で RetroPrompt を開発しました。
バニラのプロンプト学習とは対照的に、RetroPrompt はトレーニング インスタンスからオープンブックのナレッジ ストアを構築し、入力、トレーニング、推論のプロセス中に検索メカニズムを実装します。これにより、モデルにトレーニング コーパスから関連するコンテキストを取得する機能が装備されます。
強化のための手がかり。
広範な実験により、RetroPrompt が少数ショット設定とゼロショット設定の両方でより優れたパフォーマンスを得ることができることが実証されました。
さらに、私たちが提案する RetroPrompt が新しいデータセットでより優れた一般化能力を生み出すことができることをさらに説明します。
記憶の詳細な分析により、RetroPrompt が言語モデルの記憶への依存を軽減できることが明らかになりました。
したがって、下流タスクの一般化が向上します。
コードは https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt で入手できます。

要約(オリジナル)

Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt.

arxiv情報

著者 Xiang Chen,Lei Li,Ningyu Zhang,Xiaozhuan Liang,Shumin Deng,Chuanqi Tan,Fei Huang,Luo Si,Huajun Chen
発行日 2023-09-19 12:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク