InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

要約

検索を使用して自己回帰大規模言語モデル (LLM) を事前トレーニングすると、外部データベースを活用することで、複雑さと事実の正確さが向上することが実証されます。
ただし、既存の事前トレーニング済み検索拡張 LLM のサイズは依然として制限されており (たとえば、Retro のパラメーターは 7.5B です)、命令チューニングとゼロショット汎化の有効性が制限されます。
この作業では、命令チューニングの前に検索で事前トレーニングされた最大の LLM である Retro 48B を紹介します。
具体的には、1.2 兆個のトークンから取得するレトロ拡張手法を使用して、追加の 1,000 億個のトークンで 43B GPT モデルの事前トレーニングを継続します。
得られた基礎モデルである Retro 48B は、複雑さの点で元の 43B GPT を大幅に上回っています。
Retro で命令をチューニングした後、InstructRetro は、ゼロショット質問応答 (QA) タスクで命令をチューニングした GPT に比べて大幅な改善を示しました。
具体的には、InstructRetro の平均改善率は、8 つの短い形式の QA タスクでは GPT と比べて 7% 向上し、4 つの困難な長い形式の QA タスクでは GPT より 10% 向上しました。
驚くべきことに、InstructRetro アーキテクチャからエンコーダを除去し、そのデコーダ バックボーンを直接使用しながら、同等の結果を達成できることがわかりました。
私たちは、検索による事前トレーニングにより、デコーダーが QA 用のコンテキストを組み込むのが得意になると仮説を立てます。
私たちの結果は、命令チューニングの前に取得を伴う事前トレーニングを継続することで、QA 用のより優れた GPT デコーダーを取得するという有望な方向性を強調しています。

要約(オリジナル)

Pretraining auto-regressive large language models (LLMs) with retrieval demonstrates better perplexity and factual accuracy by leveraging external databases. However, the size of existing pretrained retrieval-augmented LLM is still limited (e.g., Retro has 7.5B parameters), which limits the effectiveness of instruction tuning and zero-shot generalization. In this work, we introduce Retro 48B, the largest LLM pretrained with retrieval before instruction tuning. Specifically, we continue to pretrain the 43B GPT model on additional 100 billion tokens using the Retro augmentation method by retrieving from 1.2 trillion tokens. The obtained foundation model, Retro 48B, largely outperforms the original 43B GPT in terms of perplexity. After instruction tuning on Retro, InstructRetro demonstrates significant improvement over the instruction tuned GPT on zero-shot question answering (QA) tasks. Specifically, the average improvement of InstructRetro is 7% over its GPT counterpart across 8 short-form QA tasks, and 10% over GPT across 4 challenging long-form QA tasks. Surprisingly, we find that one can ablate the encoder from InstructRetro architecture and directly use its decoder backbone, while achieving comparable results. We hypothesize that pretraining with retrieval makes its decoder good at incorporating context for QA. Our results highlights the promising direction to obtain a better GPT decoder for QA through continued pretraining with retrieval before instruction tuning.

arxiv情報

著者 Boxin Wang,Wei Ping,Lawrence McAfee,Peng Xu,Bo Li,Mohammad Shoeybi,Bryan Catanzaro
発行日 2023-10-11 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク