Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study

要約

大規模なデコーダ専用言語モデル (LM) は、検索 (RETRO など) によって複雑さの点で大幅に改善できますが、テキスト生成の品質と下流タスクの精度への影響は不明です。
したがって、それはまだ未解決の問題です。検索を使用して大規模な自己回帰 LM を事前学習する必要があるでしょうか?
それに答えるために、スケーラブルな事前トレーニング済み検索拡張 LM (つまり RETRO) について、標準 GPT および微調整または推論段階で組​​み込まれた検索拡張 GPT と比較した包括的な研究を実行します。
まず、330B トークンを含むテキスト コーパスを取得しながら、最大 9.5B のパラメータを RETRO で再現するレシピを提供します。
これに基づいて、我々は次の新しい発見を得た: i) RETRO は、劣化 (つまり、繰り返し) がはるかに少なく、事実の精度が中程度に高く、毒性のない検索データベースによる毒性がわずかに低く、テキスト生成において GPT よりも優れています。
ii) LM 評価ハーネス ベンチマークでは、知識集約型タスクでは RETRO が GPT を大幅に上回っていますが、他のタスクでは GPT と同等です。
さらに、モデルの単純なバリアントである RETRO++ を導入します。これは、元の RETRO のオープンドメイン QA 結果 (例: Natural Question の EM スコア +8.6) を大幅に改善し、微調整とゼロ調整の両方で検索拡張 GPT を大幅に上回ります。
ショット評価の設定。
私たちの発見は、将来の基礎モデルとして検索を使用して自己回帰 LM を事前トレーニングするという有望な方向性を強調しています。
コードとモデルは https://github.com/NVIDIA/Megatron-LM/blob/main/tools/retro/README.md でリリースされています。

要約(オリジナル)

Large decoder-only language models (LMs) can be largely improved in terms of perplexity by retrieval (e.g., RETRO), but its impact on text generation quality and downstream task accuracy is unclear. Thus, it is still an open question: shall we pretrain large autoregressive LMs with retrieval? To answer it, we perform a comprehensive study on a scalable pre-trained retrieval-augmented LM (i.e., RETRO) compared with standard GPT and retrieval-augmented GPT incorporated at fine-tuning or inference stages. We first provide the recipe to reproduce RETRO up to 9.5B parameters while retrieving a text corpus with 330B tokens. Based on that, we have the following novel findings: i) RETRO outperforms GPT on text generation with much less degeneration (i.e., repetition), moderately higher factual accuracy, and slightly lower toxicity with a nontoxic retrieval database. ii) On the LM Evaluation Harness benchmark, RETRO largely outperforms GPT on knowledge-intensive tasks, but is on par with GPT on other tasks. Furthermore, we introduce a simple variant of the model, RETRO++, which largely improves open-domain QA results of original RETRO (e.g., EM score +8.6 on Natural Question) and significantly outperforms retrieval-augmented GPT in both fine-tuning and zero-shot evaluation settings. Our findings highlight the promising direction of pretraining autoregressive LMs with retrieval as future foundation models. We release our code and model at: https://github.com/NVIDIA/Megatron-LM/blob/main/tools/retro/README.md

arxiv情報

著者 Boxin Wang,Wei Ping,Peng Xu,Lawrence McAfee,Zihan Liu,Mohammad Shoeybi,Yi Dong,Oleksii Kuchaiev,Bo Li,Chaowei Xiao,Anima Anandkumar,Bryan Catanzaro
発行日 2023-12-21 00:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク