Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study

要約

タイトル:自己回帰言語モデルをリトリーバルで事前学習しましょうか?包括的な研究
要約:
-自己回帰言語モデルは、検索(RETROなど)によって逆調整することで、Perplexityの点で大幅に改善されますが、テキスト生成の品質やダウンストリームタスクの精度に対する影響は不明です。
-したがって、大規模な自己回帰言語モデルをリトリーバルで事前学習するべきかどうかは、依然として未解決の問題です。
-この問いに答えるために、我々はスケーラブルな事前学習済みリトリーバル強化言語モデル(RETRO)と通常のGPT、及びファインチューニングや推論段階で組み込まれたリトリーバル強化GPTを比較する包括的な研究を行いました。

以下が私たちの新しい発見です:
– RETROは、非毒性のリトリーバルデータベースを使用して、テキスト生成の際に非常に少ない退化(繰り返し)、やや高い事実の正確さ、わずかに低い有毒性を伴ってGPTを上回ります。
– LM Evaluation Harnessベンチマークでは、知識集約的なタスクでRETROが大幅にGPTを上回りますが、他のタスクではGPTと同等です。
– さらに、私たちはモデルの単純な変種であるRETRO ++を導入し、元のRETROに比べてオープンドメインQAの結果を大幅に改善し(Natural QuestionのEMスコアを+ 8.6)、異なるモデルサイズでリトリーバル強化されたGPTを大幅に上回ります。
– これらの発見は、私たちが含意するところとして、リトリーバルによる自己回帰言語モデルの事前学習が将来の基礎モデルとして有望な方向であることを強調しています。
– 私たちは、https://github.com/NVIDIA/Megatron-LM#retroで実装をリリースしています。

要約(オリジナル)

Large decoder-only language models (LMs) can be largely improved in terms of perplexity by retrieval (e.g., RETRO), but its impact on text generation quality and downstream task accuracy is unclear. Thus, it is still an open question: shall we pretrain large autoregressive LMs with retrieval? To answer it, we perform a comprehensive study on a scalable pre-trained retrieval-augmented LM (i.e., RETRO) compared with standard GPT and retrieval-augmented GPT incorporated at fine-tuning or inference stages. We first provide the recipe to reproduce RETRO up to 9.5B parameters while retrieving a text corpus with 330B tokens. Based on that, we have the following novel findings: i) RETRO outperforms GPT on text generation with much less degeneration (i.e., repetition), moderately higher factual accuracy, and slightly lower toxicity with a nontoxic retrieval database. ii) On the LM Evaluation Harness benchmark, RETRO largely outperforms GPT on knowledge-intensive tasks, but is on par with GPT on other tasks. Furthermore, we introduce a simple variant of the model, RETRO++, which largely improves open-domain QA results of original RETRO (e.g., EM score +8.6 on Natural Question) and significantly outperforms retrieval-augmented GPT across different model sizes. Our findings highlight the promising direction of pretraining autoregressive LMs with retrieval as future foundation models. We release our implementation at: https://github.com/NVIDIA/Megatron-LM#retro

arxiv情報

著者 Boxin Wang,Wei Ping,Peng Xu,Lawrence McAfee,Zihan Liu,Mohammad Shoeybi,Yi Dong,Oleksii Kuchaiev,Bo Li,Chaowei Xiao,Anima Anandkumar,Bryan Catanzaro
発行日 2023-04-13 18:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク