要約
完全パラメトリック言語モデルは、一般に、ゼロ/少数ショット設定で複数の自然言語タスクを解決するために必要な知識を格納するために、膨大な数のモデル パラメーターを必要とします。
さらに、コストのかかるモデルの再トレーニングなしでは、進化する世界の知識に適応することは困難です。
この論文では、パラメトリックなテキストからテキストへの言語モデルを知識豊富な外部メモリで強化する、新しいセミパラメトリック言語モデル アーキテクチャ、Knowledge-in-Context (KiC) を開発します。
具体的には、外部記憶には、実体知識、辞書知識、常識知識、事象知識、スクリプト知識、因果知識の 6 種類の知識が含まれています。
各入力インスタンスに対して、KiC モデルは知識タイプを適応的に選択し、最も役立つ知識を取得します。
入力インスタンスとその知識増強がテキストからテキストへのモデル (T5 など) に入力されて、入力と出力の両方がプロンプト後の自然言語形式で出力される回答が生成されます。
興味深いことに、KiC は特別なエキスパート混合 (MoE) モデルとして識別できることがわかりました。このモデルでは、知識セレクターがルーターの役割を果たし、MoE でシーケンスからエキスパートへの割り当てを決定するために使用されます。
この重要な観察結果は、インスタンス適応知識セレクターを使用して KiC をトレーニングするための新しいアルゴリズムを開発するきっかけになります。
知識が豊富なセミパラメトリック言語モデルとして、KiC は目に見えないタスクで優れたゼロ ショット パフォーマンスを達成するために、はるかに小さなパラメトリック部分のみを必要とします。
40 以上の異なるタスクで評価することにより、770M のパラメーターを持つ KiC_Large が、4 ~ 39 倍大きい大規模な言語モデル (LM) よりも大幅に優れていることを示しています。
また、完全にパラメトリックなモデルと比較して、KiC が非常に小さなモデル スケールで創発的な能力を発揮することも示しています。
要約(オリジナル)
Fully-parametric language models generally require a huge number of model parameters to store the necessary knowledge for solving multiple natural language tasks in zero/few-shot settings. In addition, it is hard to adapt to the evolving world knowledge without the costly model re-training. In this paper, we develop a novel semi-parametric language model architecture, Knowledge-in-Context (KiC), which empowers a parametric text-to-text language model with a knowledge-rich external memory. Specifically, the external memory contains six different types of knowledge: entity, dictionary, commonsense, event, script, and causality knowledge. For each input instance, the KiC model adaptively selects a knowledge type and retrieves the most helpful pieces of knowledge. The input instance along with its knowledge augmentation is fed into a text-to-text model (e.g., T5) to generate the output answer, where both the input and the output are in natural language forms after prompting. Interestingly, we find that KiC can be identified as a special mixture-of-experts (MoE) model, where the knowledge selector plays the role of a router that is used to determine the sequence-to-expert assignment in MoE. This key observation inspires us to develop a novel algorithm for training KiC with an instance-adaptive knowledge selector. As a knowledge-rich semi-parametric language model, KiC only needs a much smaller parametric part to achieve superior zero-shot performance on unseen tasks. By evaluating on 40+ different tasks, we show that KiC_Large with 770M parameters easily outperforms large language models (LMs) that are 4-39x larger by a large margin. We also demonstrate that KiC exhibits emergent abilities at a much smaller model scale compared to the fully-parametric models.
arxiv情報
著者 | Xiaoman Pan,Wenlin Yao,Hongming Zhang,Dian Yu,Dong Yu,Jianshu Chen |
発行日 | 2023-03-27 07:33:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google